Microsoft duplica la velocidad de su tecnología de reconocimiento de voz

Tras aplicar el concepto de DNN al reconocimiento de voz, Microsoft ha conseguido rebajar de 1,06 segundos a 0,53 segundos el tiempo necesario para traducir a texto los comandos hablados.

Las funciones de reconocimiento de voz se están convirtiendo en una de las grandes bazas de los fabricantes de tecnología, tanto para animar los dispositivos móviles como para facilitar la navegación a través de los clásicos ordenadores de escritorio.

microsoft logoY ahora los usuarios de productos de Microsoft podrán hacerlo todavía más rápido, gracias a un avance que permite reproducir los comandos hablados a texto escrito en tan sólo 0,53 segundos frente a los 1,06 segundos que se tardaba hasta el momento.

¿Cómo se ha conseguido duplicar el rendimiento? Aplicando el concepto de redes neuronales dinámicas (DNN por sus siglas en inglés) al reconocimiento de voz.

Según explica la compañía de Redmond y recoge VentureBeat, este enfoque imita a la forma en la que funciona el cerebro humano detectando “pequeñas variaciones en el habla que permanecen iguales incluso cuando cambia la voz”. Esto es, que las perturbaciones se estabilizan aunque alguien comience a hablar a toda velocidad o muy alto, module el timbre de su voz o se entrecorte.

Otra ventaja es que con este cambio se ha reducido la tasa de error desde el 16% anterior a un más interesante 13,5%, también cuando hay ruido de fondo.