presspool.it press office in pixel - Speechmatics porta il riconoscimento vocale al prossimo livello

La pionieristica tecnologia di apprendimento auto-supervisionato dell'azienda di Cambridge riduce gli errori di riconoscimento vocale per le voci afroamericane del 45% rispetto ad Amazon, Apple, Google e Microsoft.

Speechmatics, la nota tecnologia di riconoscimento vocale scalabile, ha lanciato il suo software "Autonomous Speech Recognition". Utilizzando le più recenti tecniche di deep learning e con l'introduzione dei suoi innovativi modelli auto-supervisionati, Speechmatics supera Amazon, Apple, Google e Microsoft nell'ultimo passo dell'azienda verso la sua missione di comprendere tutte le voci.

Sulla base dei set di dati utilizzati nello studio "Racial Disparities in Speech Recognition" di Stanford, Speechmatics ha registrato un'accuratezza complessiva dell'82,8% per le voci afroamericane rispetto a Google (68,6%) e Amazon (68,6).

Questo livello di precisione equivale a una riduzione del 45% degli errori di riconoscimento vocale, l'equivalente di tre parole in una frase media.

Il riconoscimento vocale autonomo di Speechmatics offre miglioramenti simili in termini di precisione attraverso accenti, dialetti, età e altre caratteristiche sociodemografiche.

Fino ad ora, le incomprensioni nel riconoscimento vocale erano all'ordine del giorno a causa della quantità limitata di dati etichettati disponibili su cui esercitarsi. I dati etichettati devono essere "etichettati" o "classificati" manualmente dagli esseri umani, il che non solo limita la quantità di dati disponibili per l'allenamento, ma anche la rappresentazione di tutte le voci.

Con questa svolta, la tecnologia di Speechmatics viene addestrata su enormi quantità di dati non etichettati direttamente da Internet, come contenuti di social media e podcast.

Utilizzando l'apprendimento auto-supervisionato, la tecnologia è ora addestrata su 1,1 milioni di ore di audio, un aumento rispetto alle 30.000 ore.

Ciò offre una rappresentazione molto più completa di tutte le voci e riduce drasticamente i pregiudizi e gli errori dell'IA nel riconoscimento vocale.

Speechmatics supera anche i concorrenti sulle voci dei bambini, che sono notoriamente difficili da riconoscere utilizzando la tecnologia di riconoscimento vocale legacy.

Speechmatics ha registrato una precisione del 91,8% rispetto a Google (83,4%) e Deepgram (82,3%) sulla base del progetto open source Common Voice.

Il commento ufficiale di Speechmatics: “La nostra missione è fornire la prossima generazione di capacità di apprendimento automatico e attraverso ciò offrire una tecnologia vocale più inclusiva e accessibile.

Questo annuncio è un enorme passo avanti verso il raggiungimento di questa missione.

INFO: www.speechmatics.com

La nostra attenzione nell'affrontare i pregiudizi dell'intelligenza artificiale ha portato a questo balzo in avanti monumentale nel settore del riconoscimento vocale e l'effetto a catena porterà a cambiamenti in una moltitudine di scenari diversi. Pensa alle didascalie errate che vediamo sui social media, alle udienze in tribunale in cui le parole vengono trascritte male e alle piattaforme di eLearning che hanno lottato con le voci dei bambini durante la pandemia. Gli errori che le persone hanno dovuto accettare fino ad ora possono avere un impatto tangibile sulla loro vita quotidiana”.

Allison Zhu Koenecke, autrice principale dello studio di Stanford sul riconoscimento vocale: "È fondamentale studiare e migliorare l'equità nei sistemi di sintesi vocale, dato il potenziale di danni disparati agli individui attraverso i settori a valle che vanno dall'assistenza sanitaria alla giustizia penale".

Scopri di più sul riconoscimento vocale autonomo di Speechmatics o provalo gratuitamente oggi stesso!

Tecnologie Innovative

Speechmatics porta il riconoscimento vocale al prossimo livello

Ultimissime di Tutte le Categorie

We strive for accuracy and fairness. If you see something not feeling right please let us know

Tecnologie Innovative

Speechmatics porta il riconoscimento vocale al prossimo livello

Related Articles

Mimir, speciale NAB 2026 gestione completa media in cloud

SmallHD rilascia un importante aggiornamento di PageOS con Portrait Mode, Fleet Control e nuove funzioni di controllo camera

Bitfocus presenta nuove funzionalità enterprise per il controllo degli show a ISE 2026

Ultimissime di Tutte le Categorie

We strive for accuracy and fairness. If you see something not feeling right please let us know