voz megafono

voz megafono

Software

Baidu crea una IA capaz de clonar nuestra voz, cambiarle el sexo y los acentos

27 febrero, 2018 10:19

Noticias relacionadas

Dentro de nada no podremos creernos nada de lo que vemos, gracias a avances en Inteligencia Artificial capaces de crear escenas que nunca ocurrieron; pero además, y gracias a la IA desarrollada por Baidu, pronto tampoco podremos creer nada de lo que escuchamos.

Un reciente estudio de los investigadores del gigante chino ha demostrado las capacidades de Deep Voice, una Inteligencia Artificial capaz de clonar la voz; usando dos métodos de entrenamiento diferentes, el sistema consigue captar las partes clave que diferencian nuestra voz de otras, y modificarlas como queramos.

La IA capaz de clonar nuestra voz

El primer método se llama “adaptación del hablante”, y es una técnica más lenta y costosa, ya que requiere información adicional en forma de más piezas de audio que analizar; partiendo de unas pocas muestras, el sistema se calibra a si mismo poco a poco, usando muestras adicionales.

baidu voz clon inteligencia artificial 1

baidu voz clon inteligencia artificial 1

En cambio, el método de “codificación del hablante” es más rápido y por lo tanto, barato en términos computacionales; esto permitiría, por ejemplo, que no sea necesario depender de servidores para ejecutarlo, aunque el resultado final sea de menor calidad. Consiste en entrenar por separado a un segundo modelo, que es el que ofrecerá la información relativa al habla con cada nueva muestra incluida.

Voz original

Voz clonada después de 10 muestras

Voz clonada después de 100 muestras

Ambos métodos ya son más rápidos y de mejor calidad que generaciones anteriores de Deep Voice; hasta el punto de que no solo son capaces de clonar una voz, sino también de otorgarle la misma naturalidad y copiar la manera de hablar que la persona original.

Baidu puede cambiar el sexo y el acento de nuestra voz

baidu voz clon inteligencia artificial 2

baidu voz clon inteligencia artificial 2

Y como el sistema sabe exactamente cuales son los factores que hacen única a una voz, también puede modificarlos para crear nuevas voces basadas en ella. De esta manera, es capaz de convertir la voz de un hombre en la de una mujer, y viceversa; podríamos interpretar el resultado como la manera en la que sonaríamos si nos cambiasen el sexo.

Voz original de hombre

Voz sintetizada de mujer

Deep Voice también trabaja con acentos, distinguiendo entre el británico y el americano e intercambiándolos como sea necesario, por ejemplo.

Voz original con acento británico

Voz sintetizada con acento americano.

Para Baidu, todo esto es especialmente importante para ofrecer atención automatizada especializada. Un solo sistema es capaz de reproducir miles de identidades diferentes con sólo media hora de entrenamiento; así que sería posible entrenar varios sistemas para atención al cliente o para asistentes virtuales, por ejemplo, con voces que nos resulten familiares y adaptadas a nuestra cultura, en vez de la misma para todo el mundo.

Podéis escuchar más ejemplos en la página de Github del proyecto.