Google ya es capaz de autocompletar nuestra voz en las videollamadas

Las videollamadas está viviendo un auténtico ‘boom’ con el confinamiento al que nos hemos visto obligados por la crisis del COVID-19.

A falta del calor humano y la compañía de nuestros amigos y familiares, las videoconferencias nos permiten sentirnos más cerca de ellos, acercándonos a la experiencia que tendríamos en una charla cara a cara. Y también están jugando un papel muy importante para sustituir las reuniones de trabajo presenciales.

Sin embargo, al aumentar la frecuencia de uso de este recurso, nos estamos dando cuenta de que calidad de las videollamadas que ofrecen algunas plataformas quizá no ses tan satisfactoria como cabría esperar. En muchos casos, la conversación se ve jalonada por cortes y ese típico efecto metálico, que hace que nuestras palabras suenen como si fueran pronunciadas por un robot.

Pero estas de deficiencias tienen los días contados. Google ha anunciado recientemente el desarrollo de una tecnología basada en inteligencia artificial que permite mejorar la calidad de audio de las videollamadas a través de su aplicación Duo. Los dispositivos Pixel 4 ya incorporan este avance.

Dicho sistema, denominado WaveNetEQ, consiste en un modelo generativo basado en la tecnología WaveRNN de DeepMind que se entrena utilizando un gran conjunto de datos de voz. De esta manera, es capaz de crear de manera realista segmentos cortos de voz cuando se producen fallos en la transmisión de datos. Es decir, es como el autocompletado de texto del buscador de Google, pero con la voz.

¿Por qué se producen esos fallos? ¿Y cómo lo solventa esta nueva tecnología? Google explica que para transmitir una llamada a través de internet hay que fragmentar los datos de la misma en pequeños paquetes, que luego vuelven a ensamblar cuando llegan al receptor. Sin embargo, dichos paquetes frecuentemente llegan en el orden o en el momento incorrecto, e incluso algunos pueden llegar a perderse.

La compañía especifica que el 99% de las llamadas de Google Duo sufren pérdidas de paquetes, fluctuaciones excesivas o retrasos en la red. De esas llamadas, el 20% pierde más del 3% de la duración total del audio por problemas de red. Y el 10% de las llamadas llegar a perder más del 8%.

Para ocultar estos efectos de la pérdida de paquetes, habitualmente se usan métodos de procesamiento de señales, analizando el habla del usuario y produciendo una continuación suave. Esta solución funciona muy bien para pequeñas pérdidas, de 20 milisegundos o menos, pero no resuelve el problema si el número de paquetes ausente genera huecos de 60 milisegundos o más. En estos casos cuando el discurso se vuelve robótico y repetitivo.

La nueva tecnología de Google consiste en un modelo de red neuronal recurrente para la síntesis de voz que consta de dos partes, una red autorregresiva y una red de acondicionamiento. La red autorregresiva es responsable de la continuidad de la señal y proporciona la estructura a corto y medio plazo para la voz. Y la red de acondicionamiento influye en la red autorregresiva para producir audio consistente.

Además, este sistema incorpora la tecnología conversión de texto a voz, recibiendo la información de lo que se supone que debe decir y cómo decirlo. La red de acondicionamiento recibe esta información en forma de los fonemas que componen las palabras y características de prosodia -información que no es texto, como la entonación o el tono-, adelantándose para dirigir la red autorregresiva hacia las formas de onda correctas para que coincidan con lo que va a decir el usuario.

De esta forma, la inteligencia artificial es capaz de anticiparse para generar la voz e insertarla en el lugar donde se produce el fallo en la videollamada. Por ahora, sólo puede generar sílabas, aunque no palabras o frases completas.

David Ramos

Soy periodista freelance especializado en información económica, gestión empresarial y tecnología. Yo no elegí esta especialidad. Fue ella la que me escogió a mí.

Recent Posts

Lenovo presenta siete nuevos ordenadores y una tableta

Renueva las gamas de dispositivos Legion y Yoga e introduce una tableta M10 Plus con…

14 horas ago

1.000 millones de euros y 1.700 kms: Iberdrola se adjudica en Brasil el mayor contrato de tendido de redes

Neoenergía, la filial brasileña de Iberdrola, se adjudica el mayor contrato para el mayor tendido…

15 horas ago

Más de 35.000 españoles declaran a Hacienda inversiones en criptomonedas

Casi 32.500 españoles han declarado inversiones en criptomonedas, declarando ganancias de de casi 760 millones…

16 horas ago

Starlink, autorizada a ofrecer acceso a Internet vía satélite a vehículos, barcos y aviones en movimiento

La Comisión Federal de Comunicaciones de Estados Unidos ha autorizado a Starlink a proporcionar servicio…

16 horas ago

Alianza a siete para desarrollar en España vehículos autónomos y conectados con 5G

Renault Group, Indra, GMV, MASMOVIL, Alsa, Masermic y Sigma colaboran en el proyecto R3CAV

18 horas ago

Meta retira su proyecto de billetera digital Novi

La compañía de Mark Zuckerberg da por finalizo el programa piloto: la aplicación y el servicio…

19 horas ago