WaveNet analiza las ondas sonoras para imitar el lenguaje de las personas. El objetivo es lograr máquinas capaces de hablar como en el mundo real.
Los generadores de voz actuales utilizan un sistema de texto a voz, lo que a menudo produce mensajes demasiado literales y robóticos. WaveNet, el nuevo avance de Google, utiliza una técnica más compleja para superar a la tecnología actual: gracias a una red neural se imita el funcionamiento del cerebro humano y se analizan las ondas para modelar patrones de probabilidad. La traducción: los sistemas actuales tienen grabadas sílabas o palabras que se coordinan para formar las palabras. WaveNet necesita 16.000 muestras de formas de onda por segundo, pero crea patrones de voz realistas. Suenan a humano.
“Permitir que la gente pueda conversar con las máquinas es un sueño dentro de la interacción hombre-máquina”, explican los investigadores de DeepMind. Ahora, ese sueño está más cerca, aunque Google admite que esta tecnología tardará bastante tiempo en llegar al mercado por la excesiva cantidad de datos que necesita computar por segundo.
Los sistemas actuales no son capaces de interactuar con la fuente de sus palabras (el texto que convierten a voz), lo cual genera una voz metálica que no capta los matices de una conversación. El nuevo sistema de Google permite a su motor de Inteligencia Artificial modificar sobre la marcha la conversación, aprende de su propia experiencia y entiende el sarcasmo o la ironía, al analizar el tono con el que le habla su interlocutor.
La búsqueda de máquinas capaces de hablar es una constante. Si Apple sorprendió con
Siri, en quien siguen trabajando para mejorar los servicios que puede prestar a sus usuarios, ahora son Google (con su
“ok Google” incluido en los teléfonos Android), Microsoft (con
Cortana) o Amazon (con
Alexa, su motor de inteligencia artificial que permitirá gestionar un hogar con el dispositivo Echo) quienes
están buscando la forma de crear robots que hablen como personas.