Tabla de contenidos
La tecnología siempre está en constante evolución, y Microsoft está a la vanguardia con su última innovación: VALL-E. Este nuevo modelo de inteligencia artificial de texto a voz puede simular la voz de cualquier persona con solo una muestra de audio de tres segundos. Pero, ¿cómo funciona exactamente y qué implicaciones podría tener para el futuro de la comunicación?
VALL-E: La Nueva Frontera de la Inteligencia Artificial
VALL-E no es solo una inteligencia artificial que puede imitar voces. Va más allá, preservando el tono emocional del hablante y el entorno acústico. Esto significa que no solo puede replicar la voz de una persona, sino también el tono y la emoción detrás de esa voz.
Microsoft ha denominado a VALL-E como un ‘modelo de lenguaje de códec neural’, y se basa en una tecnología llamada EnCodec. A diferencia de otros métodos de conversión de texto a voz que sintetizan el discurso manipulando formas de onda, VALL-E genera códecs de audio separados a partir de texto e indicaciones acústicas. Analiza cómo suena una persona, descompone esa información en partes individuales (llamados ‘tokens’) gracias a EnCodec y utiliza datos de entrenamiento para hacer coincidir lo que ‘sabe’ sobre cómo sonaría esa voz si pronunciara otras frases fuera de la muestra de tres segundos.
El Entrenamiento
Para entrenar a VALL-E, Microsoft utilizó una biblioteca de audio llamada LibriLight, creada por Meta. Esta biblioteca contiene 60 mil horas de oratoria en inglés de más de siete mil hablantes, en su mayoría extraídas de audiolibros de dominio público de LibriVox. Para que VALL-E reproduzca un buen resultado, la voz de la muestra de tres segundos debe ser muy parecida a una de los datos de entrenamiento.
Las Posibles Aplicaciones
Los creadores de VALL-E ven un futuro brillante para esta tecnología. Podría utilizarse para aplicaciones de conversión de texto a voz de alta calidad, para edición de voz en la que se podría corregir y cambiar una grabación de una persona a partir de una transcripción de texto, y en la creación de contenidos de audio cuando se combine con otros modelos de inteligencia artificial generativa, como GPT-3.
Los Desafíos Éticos de VALL-E
A pesar de las emocionantes posibilidades que ofrece VALL-E, también existen preocupaciones éticas. Dado que VALL-E podría sintetizar el discurso de alguien manteniendo la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación por voz o de un orador específico. Para mitigar estos riesgos, Microsoft está trabajando en la construcción de un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E.
En resumen, VALL-E es una innovación emocionante que tiene el potencial de cambiar la forma en que interactuamos con la tecnología y entre nosotros. Sin embargo, como con cualquier nueva tecnología, es importante que se implemente de manera responsable