Google ya es capaz de autocompletar nuestra voz en las videollamadas

Google Duo incorpora una tecnología que subsana los fallos en la transmisión que se producen en las videollamadas, recurriendo a la inteligencia artificial para autocompletar nuestra voz.

Las videollamadas está viviendo un auténtico ‘boom’ con el confinamiento al que nos hemos visto obligados por la crisis del COVID-19.

A falta del calor humano y la compañía de nuestros amigos y familiares, las videoconferencias nos permiten sentirnos más cerca de ellos, acercándonos a la experiencia que tendríamos en una charla cara a cara. Y también están jugando un papel muy importante para sustituir las reuniones de trabajo presenciales.

Sin embargo, al aumentar la frecuencia de uso de este recurso, nos estamos dando cuenta de que calidad de las videollamadas que ofrecen algunas plataformas quizá no ses tan satisfactoria como cabría esperar. En muchos casos, la conversación se ve jalonada por cortes y ese típico efecto metálico, que hace que nuestras palabras suenen como si fueran pronunciadas por un robot.

Pero estas de deficiencias tienen los días contados. Google ha anunciado recientemente el desarrollo de una tecnología basada en inteligencia artificial que permite mejorar la calidad de audio de las videollamadas a través de su aplicación Duo. Los dispositivos Pixel 4 ya incorporan este avance.

Dicho sistema, denominado WaveNetEQ, consiste en un modelo generativo basado en la tecnología WaveRNN de DeepMind que se entrena utilizando un gran conjunto de datos de voz. De esta manera, es capaz de crear de manera realista segmentos cortos de voz cuando se producen fallos en la transmisión de datos. Es decir, es como el autocompletado de texto del buscador de Google, pero con la voz.

¿Por qué se producen esos fallos? ¿Y cómo lo solventa esta nueva tecnología? Google explica que para transmitir una llamada a través de internet hay que fragmentar los datos de la misma en pequeños paquetes, que luego vuelven a ensamblar cuando llegan al receptor. Sin embargo, dichos paquetes frecuentemente llegan en el orden o en el momento incorrecto, e incluso algunos pueden llegar a perderse.

La compañía especifica que el 99% de las llamadas de Google Duo sufren pérdidas de paquetes, fluctuaciones excesivas o retrasos en la red. De esas llamadas, el 20% pierde más del 3% de la duración total del audio por problemas de red. Y el 10% de las llamadas llegar a perder más del 8%.

Para ocultar estos efectos de la pérdida de paquetes, habitualmente se usan métodos de procesamiento de señales, analizando el habla del usuario y produciendo una continuación suave. Esta solución funciona muy bien para pequeñas pérdidas, de 20 milisegundos o menos, pero no resuelve el problema si el número de paquetes ausente genera huecos de 60 milisegundos o más. En estos casos cuando el discurso se vuelve robótico y repetitivo.

La nueva tecnología de Google consiste en un modelo de red neuronal recurrente para la síntesis de voz que consta de dos partes, una red autorregresiva y una red de acondicionamiento. La red autorregresiva es responsable de la continuidad de la señal y proporciona la estructura a corto y medio plazo para la voz. Y la red de acondicionamiento influye en la red autorregresiva para producir audio consistente.

Además, este sistema incorpora la tecnología conversión de texto a voz, recibiendo la información de lo que se supone que debe decir y cómo decirlo. La red de acondicionamiento recibe esta información en forma de los fonemas que componen las palabras y características de prosodia -información que no es texto, como la entonación o el tono-, adelantándose para dirigir la red autorregresiva hacia las formas de onda correctas para que coincidan con lo que va a decir el usuario.

De esta forma, la inteligencia artificial es capaz de anticiparse para generar la voz e insertarla en el lugar donde se produce el fallo en la videollamada. Por ahora, sólo puede generar sílabas, aunque no palabras o frases completas.