Nuevo logro de Microsoft en el reconocimiento de voz

La compañía de Redmond ha conseguido reducir la tasa de error de palabras del 6,3 % al 5,1 %.

Microsoft sigue avanzando en las investigaciones sobre reconocimiento de voz. Y cosechando éxitos.

Si hace algo menos de un año la compañía de Redmond conseguía reducir la tasa de error de palabras a mínimos históricos, hasta el 6,3 % en una evaluación de benchmark realizada con el estándar Switchboard, ahora ha ido incluso más allá. Ha dejado esa cifra en un 5,1 % con su sistema de reconocimiento.

Microsoft ha reducido su tasa de error en un 12 % y se acerca así a la paridad humana.

Y es que la tecnología desarrollada por Microsoft sería capaz de reconocer palabras en el marco de una conversación tan bien como lo haría un transcriptor humano.

Desde Microsoft explican que esta equiparación con las capacidades humanas “ha sido un objetivo de investigación durante los últimos 25 años”. Pero el trabajo no está finalizado.

Alcanzar esta tasa de error del 5,1 % se ve como “un logro significativo”. Sin embargo, “la comunidad de investigación del habla todavía tiene muchos desafíos que abordar, como alcanzar niveles humanos de reconocimiento en entornos ruidosos con micrófonos distantes” o “en el reconocimiento del habla acentuada”, entre otras metas, tal y como indica el técnico Xuedong Huang.

“Además”, añade Huang, “tenemos mucho trabajo que hacer en enseñar a los ordenadores no sólo a transcribir las palabras habladas, sino también a entender su significado e intención”. En este sentido, “pasar del reconocimiento a la comprensión del habla es la siguiente gran frontera para la tecnología de voz”.

Lea también : Microsoft presenta nuevas capacidades centradas en IA en KubeCon Europa 2024