VALL-E es el modelo de voz por IA de Microsoft

VALL-E es el modelo de voz por IA de Microsoft El Androide Libre

Noticias y novedades

La Inteligencia Artificial de Microsoft va a ser capaz de imitar tu voz con solo 3 segundos de un audio

Microsoft ha creado VALL-E, un modelo de texto a voz capaz de imitar cualquier voz con tan solo 3 segundos del audio de la persona. Una tecnología que irrumpe y que romperá muchos esquemas al alcanzar tal nivel de realidad.

10 enero, 2023 19:23

La IA o Inteligencia Artificial cada vez está haciendo más mella en la sociedad actual con distintas soluciones y poniendo patas arriba cualquier tipo de industria. Ahora Microsoft ha creado un modelo de voz llamado VALL-E que es capaz de imitar cualquier voz con un audio de 3 segundos.

[La inteligencia artificial revoluciona todos los ámbitos de la creación gráfica: ¿para sumar o restar?]

La IA en la voz humana con VALL-E

Que la Inteligencia Artificial sea capaz de imitar la voz de cualquier persona con un audio de 3 segundos casi que da un poco de miedo. Sobre todo por el mal uso que se le puede dar con todo tipo de objetivos.

Si ya en el arte está logrando que no se sepa si una obra ha sido hecha por la mano de un artista (incluso consiguiendo que alguno que logra ilustraciones similares a las que genera la IA sea bloqueado en redes como reddit), el futuro que nos espera es totalmente incierto.

Vista general de VALL-E

Vista general de VALL-E El Androide Libre

Desde github se explica el funcionamiento de este modelo de voz neural al que se ha llamado VALL-E y que usa códigos discretos derivados de un modelo de códec de audio neuronal.

Se han usado 60.000 horas de datos de voz en inglés para el entrenamiento de este modelo de voz, que es casi cientos de veces mayor que los actuales sistemas existentes.

VALL-E se vale de esas capacidades del aprendizaje del contexto y así usa la voz personalizada sintetizada a alta calidad con solamente la grabación de 3 segundos de la voz de una persona.

Y es que este modelo de voz no solamente se queda en imitar la voz, sino que también mantiene la emoción de la persona cuando habla e incluso el entorno acústico que la rodea; es decir que es casi un copia y pega de la voz de alguien.

VALL-E

VALL-E El Androide Libre

En github se pueden reproducir distintos ejemplos del funcionamiento de VALL-E, y la verdad es que sorprende tanto que sobrecoge de la capacidad de este modelo de voz para imitar al timbre de cualquier persona.

Te puede interesar