líderes en noticias de marketing, publicidad y marcas

VALL-E, la IA de Microsoft que imita tu voz en solo tres segundos

Así es VALL-E, la parlanchina inteligencia artificial de Microsoft capaz de imitar tu voz en apenas tres segundos

Esther Lastra

Escrito por Esther Lastra

VALL-E se ufana de imitar cualquier voz humana casi a la perfección escuchando durante apenas tres segundos la voz que trata de remedar.

La inteligencia artificial promete convertirse en una de las tendencias tecnológicas de más relumbrón en 2023. Microsoft lo sabe y por eso está invirtiendo a manos llenas en esta tecnología. Más allá de invertir 10.000 millones de dólares en OpenAI para integrar el chatbot ChatGTP en sus productos, el gigante del software acaba de presentar en sociedad un nuevo modelo de lenguaje: VALL-E.

Enfocado a la síntesis de voz a texto (TTS, «text to speech» en inglés), VALL-E se ufana de imitar cualquier voz humana casi a la perfección escuchando durante apenas tres segundos la voz que trata de remedar.

«Específicamente entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior», explica Microsoft.

VALL-E podrá funcionar con otros modelos de IA generativa

VALL-E aglutina aplicaciones de síntesis de voz que pueden amalgamarse con otros modelos ya conocidos en el mercado como GPT-3. Ello incluye la creación de contenido, la edición de voz y las aplicaciones de síntesis de voz zero-shot.

En su web Microsoft explica mediante un sencilla esquema cómo funciona VALL-E apoyándose en un sofisticado modelado de lenguaje de códec neural y muestra algunos ejemplos que dan cuenta de cómo funciona exactamente este producto. En tales ejemplos se especifica cuál es la entrada de audio utilizada como base, los pasos intermedios y el resultado final puesto sobre la mesa por VALL-E.

El modelo de Microsoft remeda no solo prácticamente a la perfección la voz de muestra sino también la cadencia, el tono e incluso el entorno acústico en que esta ha sido grabada.

VALL-E es capaz, por otra parte, de sintetizar muestras de voz personalizadas con las denominadas «seeds» propias del modelo, lo cual hace posible «transformar» nuestras voces en otras.

Durante la fase de entrenamiento de VALL-E Microsoft empleó alrededor de 60.000 horas de habla en inglés, una cifra que está sustancialmente por encima de los números barajados por otros sistemas TTS, de acuerdo con la empresa de Redmond.

Microsoft, que planea integrar ChatGPT en Bing y en su paquete Office, parece decidido a sacar el máximo jugo a la inteligencia artificial, que en un futuro no demasiado lejano podría estar presente en prácticamente todos sus productos.

 

4 propósitos de año nuevo que los marketeros deberían anotar en su agenda (y cumplir a rajatabla)AnteriorSigueinteUn distrito escolar de Seattle demanda a las redes sociales por masacrar la salud mental de los estudiantes

Contenido patrocinado