Google lanza un servicio text-to-speech más realista impulsado por la inteligencia artificial de DeepMind. OK Google, canta supercalifragilisticexpialidocious

Google está lanzando un nuevo sintetizador de voz AI como parte de su conjunto de herramientas en la nube de aprendizaje automático. El servicio, denominado Cloud Text-to-Speech , estará disponible para cualquier desarrollador o empresa que necesite síntesis de voz de toque, ya sea para una aplicación, un sitio web o un asistente virtual. Pero lo que es particularmente interesante acerca de esta noticia es que Cloud Text-to-Speech está impulsado por WaveNet, un software creado por la filial de inteligencia artificial de Google, DeepMind.

Esto es significativo por dos razones. En primer lugar, desde que Google compró DeepMind en 2014, ha estado explorando formas de convertir el talento de inteligencia artificial de la compañía en productos tangibles. Hasta ahora, esto ha significado usar los algoritmos de DeepMind para reducir los costos de electricidad en los centros de datos de Google en un 40 por ciento y las incursiones de DeepMind en la atención médica. Sin embargo, la integración directa de WaveNet en su servicio en la nube es posiblemente más importante, especialmente cuando Google trata de ganar negocios en la nube lejos de Amazon y Microsoft, presentando sus habilidades de inteligencia artificial como su factor diferenciador.

En segundo lugar, la tecnología de síntesis de voz AI de DeepMind es una de las más avanzadas y realistas del negocio. La mayoría de los sintetizadores de voz (incluido Siri de Apple) usan lo que se llama síntesis concatenativa, en la que un programa almacena sílabas individuales, sonidos como “ba”, “sht” y “oo”, y los une juntos sobre la marcha para formar palabras y oraciones . Este método se ha vuelto bastante bueno a lo largo de los años, pero todavía suena forzado.

“320”: “https://cdn.vox-cdn.com/thumbor/k8JWvYj-6lowVPAkZExtmxKI68Q=/0x0:900×506/320×0/filters:focal(0x0:900×506):gifv():no_upscale()/cdn.vox -cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif “,” 520 “:” https://cdn.vox-cdn.com/thumbor/LIRFA4lfi3_iQClLi_1lwptguBA=/0x0:900×506/520×0/filters:focal ( 0x0: 900×506): gifv (): no_upscale () / cdn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif “,” 720 “:” https://cdn.vox-cdn.com /thumbor/eEBWQVphJA6iMU1vYELJsa8fSeQ=/0x0:900×506/720×0/filters:focal(0x0:900×506):gifv():no_upscale()/cdn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif “, “920”: “https://cdn.vox-cdn.com/thumbor/oNX_iUIR4YD4ySozsgNfqVceDY8=/0x0:900×506/920×0/filters:focal(0x0:900×506):gifv():no_upscale()/cdn.vox-cdn .com / uploads / chorus_asset / file / 10534721 / wavenet_waveform_anim_optimised_171004_r01.gif “,” 1120 “:” https://cdn.vox-cdn.com/thumbor/wO7AslLmiApfp6GCKtjQsrHvXV0=/0x0 : 900×506 / 1120×0 / filters: focal (0x0: 900×506): gifv (): no_upscale () / cdn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif” ,”1320″:”https: //cdn.vox-cdn.com/thumbor/XRh7IO5Scp4EXfblltPJQEGqszU=/0x0:900×506/1320×0/filters:focal(0x0:900×506):gifv():no_upscale()/cdn.vox-cdn.com/uploads/chorus_asset/ file / 10534721 / wavenet_waveform_anim_optimised_171004_r01.gif “,” 1520 “:” https://cdn.vox-cdn.com/thumbor/Tz2Recw_PVy01uzUesYH4fQkZqY=/0x0:900×506/1520×0/filters:focal (0x0: 900×506): gifv (): no_upscale () / cdn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif “,” 1720 “:” https://cdn.vox-cdn.com/thumbor/rww-8pu3FN_V9wzflVcr-7Mh4lk= /0x0:900×506/1720×0/filters:focal(0x0:900×506):gifv():no_upscale()/cdn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif”,”1920 “:” https://cdn.vox-cdn.com/thumbor/gux099kyIE4MUvKn8sTuqI0nb70=/0x0:900×506/1920×0/filters:focal(0x0:900×506):gifv():no_upscale()/c dn.vox-cdn.com/uploads/chorus_asset/file/10534721/wavenet_waveform_anim_optimised_171004_r01.gif “},” art_directed “: []}” data-mce-fragment = “1”>

Un GIF que muestra cómo el modelo WaveNet de DeepMind ha mejorado a lo largo de los años.

Imagen: DeepMind

WaveNet, en comparación, utiliza el aprendizaje automático para generar audio desde cero. En realidad, analiza las formas de onda de una enorme base de datos de habla humana y las vuelve a crear a una velocidad de 24,000 muestras por segundo. El resultado final incluye voces con sutilezas como labio y acentos. Cuando Google presentó por primera vez WaveNet en 2016, era demasiado intensivo desde el punto de vista computacional para trabajar fuera de los entornos de investigación, pero desde entonces ha disminuido significativamente, mostrando una clara línea de productos de investigación a producto.

WaveNet se integró por primera vez en Google Assistant en octubre pasado (aunque solo en japonés e inglés) y ahora está disponible para voces selectas en Cloud Text-To-Speech. Google dice que el nuevo servicio ofrece 32 voces diferentes capaces de hablar 12 idiomas, y los usuarios pueden personalizar factores como el tono y la velocidad. Por lo tanto, prepárate para una ola de nuevas voces de computadora realistas con las que discutir y con el jefe. Puede ver cómo suena WaveNet para usted a continuación.

Aquí hay una voz sintetizada líder en la industria:

Y esta es la misma frase de WaveNet:

Aquí está el sintetizador de voz de otro rival, esta vez hablando en japonés:

Y de nuevo, esta es la misma frase de WaveNet: