Si no teníamos suficiente con la ingente cantidad de noticias falsas a las que nos tenemos que enfrentar todos los días, existen algunas que van incluso un poco más allá y que vuelven a viralizarse por WhatsApp. Empleando tecnologías de inteligencia artificial se puede recrear la voz de cualquier persona diciendo exactamente lo que el creador quiera.

Este tipo de fraudes circulan por redes sociales y aplicaciones de mensajería saltando de grupo en grupo y pueden llegar a crear problemas serios los afectados. El último caso ha sido el de la ministra de Exteriores Arancha González Laya. A ella le han conseguido atribuir una grabación de audio refiriéndose al terrorista Bin Laden en lugar de al presidente electo de EEUU, Joe Biden, mientras supuestamente hablaba de la victoria electoral en el país americano.

La similitud en la pronunciación de los nombres de ambos ha puesto en bandeja el trucaje del audio, un tipo de noticia falsa denominada deepfake que ha tenido un incremento importante en los últimos años. Según apuntan desde Nuance, una empresa de ciberseguridad, gracias a que los cibercriminales son cada vez más sofisticados a la hora de crear estos montajes. "A día de hoy ya existen tecnologías capaces de crear una voz sintética con una gran rapidez", afirman desde la compañía.

Y es algo que está al alcance de cualquiera, basta echar un vistazo por Internet para encontrarnos servicios de creación de voz por un módico precio o incluso webs donde están las voces de los famosos almacenadas a disposición de cualquiera. Se pueden crear desde cero y, como suele ser habitual, las herramientas a las que tienen acceso los cibercriminales son muchísimo más complejas e incluso pueden aprender por sí solas gracias al machine learning.

Deepfakes de voz

La propia ministra ha tenido que salir al paso en su cuenta de Twitter para desmentir la autoría del audio y, además, desde el Ministerio han informado que no ha tenido ninguna entrevista posterior a las elecciones a presidente de Estados Unidos. Pero el daño ya está hecho y es muy complicado de detener. "Un deepfake no es más que un montaje de voz, los hay mejores y peores, pero este de González Laya está muy bien hecho", nos ha apuntado Hervé Lambert, jefe de operaciones de consumo global de Panda Security.

Este 'buen hacer' indica que no se ha realizado con algunas de las herramientas accesibles al público general que se pueden encontrar fácilmente por internet. Sino más bien ha sido alguien con tiempo y conocimiento avanzados en la materia. "Las herramientas para realizar deepfakes de voz, hace poco tiempo, eran caras, complejas y había pocas. Hoy el panorama ha cambiado notablemente", nos indica Lambert.

En la actualidad existen muchas herramientas baratas y disponibles para casi todo el mundo con conocimientos medios en informática. "Las herramientas más refinadas tienen inteligencia artificial incorporada, son capaces de aprender de una voz y de sintetizarla". Y por último, son capaces de reproducirla a discreción del creador.

Con esta tecnología, utilizada en un contexto totalmente diferente, se pueden llegar a reproducir voces para documentales o programas de radio. Lo pudimos escuchar hace unos meses en un documental sobre Franco, donde el dictador era capaz de entonar textos que jamás fueron grabados pero sí escritos.

La tecnología actual permite que algoritmos aprendan de grabaciones. Ese ha podido ser el caso de González Laya. Una ministra tiene muchas horas de grabaciones de discursos y ruedas de prensa que pueden emplearse para 'alimentar' a esos algoritmos que luego son capaces de reproducir la voz.

González Laya JuanJo Martín EFE

Imitación y edición

Más allá de los deepfakes existen otros dos métodos mucho más rudimentarios para hacerse pasar por la ministra: la imitación de la voz y la cuidada edición del audio.

La grabación que se ha demostrado falsa no tiene una calidad muy buena y el creador puede jugar a intentar imitar la voz de la ministra. Luego, con un trabajo de edición más o menos complejo, puede hacer pasar por bueno ese pequeño fragmento que separa la dicción de Joe Biden por la de Bin Laden.

"Hay otro tipo de herramientas menos sofisticadas que consisten en la edición de voz cortando y pegando fragmentos" de otras intervenciones. Una forma mucho más rudimentaria pero que con tiempo y conocimientos también puede pasar por una grabación genuina.

Aunque en este caso ha sido la ministra Laya la afectada, Lambert informa que se dan casos de creación de deepfakes de voz en el mundo más cotidiano. Un ciberdelincuente puede crear una voz que se asemeje mucho a la de nuestro jefe para hacerse pasar por él. Una vez tiene el control de la conversación puede ordenar realizar transferencias de dinero. "No solo los famosos están en peligro con este tipo de fraude", apunta Lambert.

Noticias relacionadas