La IA más perturbadora de Microsoft: puede crear 'deepfakes' realistas con una foto y una grabación de voz

La Mona Lisa cantando o una persona inventada dando un discurso, esta es la nueva propuesta de Microsoft en la generación de contenidos.

18 abril, 2024 11:10

Marta Sanz Romero

¡Qué tiemble TikTok! El último as en la manga de Microsoft en inteligencia artificial generativa promete convertirse en un terremoto para los contenidos en redes sociales. Con un simple audio y una foto, VASA-1 genera un vídeo prácticamente realista de una persona cantando o dando un discurso, aunque nunca haya ocurrido. Una oportunidad más, junto con otros modelos como Sora de OpenAI o alternativas gratuitas como Haiper.

Un mismo audio relatado por múltiples rostros, ninguno real. Así son los ejemplos que Microsoft ha aportado para demostrar las capacidades de este nuevo modelo generativo. Un proyecto en desarrollo que aún no se lanzará al gran público, dice Microsoft, como protección contra los malos usos que se podría dar.

Partiendo de simples descripciones, de un audio o de una foto, múltiples herramientas ofrecen la posibilidad de crear cortos animados, videos de personas que no existen o hasta canciones. Un boom creativo, que también plantea un golpe contra el muro que separa la realidad de la ficción.

Rostros realistas

Microsoft presume en el anuncio de las capacidades de este nuevo modelo generativo para representar el movimiento de los labios de forma sincronizada con el audio. También aporta matices faciales y gestos naturales para dar más autenticidad. Microsoft pone de ejemplo varias expresiones faciales de felicidad, sorpresa o enfado.

El mismo audio y la misma secuencia de gestos se puede aplicar a diferentes rostros, diferentes razas. VASA-1 no se limita a trabajar con caras humanas hiperrealistas, también imprime movimiento a obras de arte o bocetos. En cuanto a los audios, pueden ser canciones o audios en diferentes idiomas, no solo en inglés.

Microsoft VASA-1 AI can make single image sing and talk from audio reference quite expressively.pic.twitter.com/7yaSBZlKRj
— Massimo (@Rainmaker1973) April 18, 2024

Sin embargo, el resultado sigue siendo artificial en algunos aspectos. Basta con fijarse en el pelo de las mujeres para reconocer que el origen es una imagen estática. También las orejas y el borde del rostro muestra incongruencias momentáneas. Algunos usuarios en redes sociales han usado la expresión "valle inquietante" para describir la incomodidad que provocan los vídeos de muestra aportados por Microsoft. Esta expresión se refiere al rechazo que suelen provocar los robots con caras muy humanas.

VASA-1 genera vídeos cuadrados de 512x512 a 45 fotogramas por segundo con procesamiento en la nube, pero también puede conseguir 40 fps con una latencia de solo 170 milisegundos en un procesamiento local, esta velocidad se ha puesto a prueba en un ordenador de escritorio con una única GPU NVIDIA RTX 4090, explica Microsoft.

Potencial y riesgos

La propuesta de VASA-1 no es del todo nueva, hace años que existen herramientas basadas en IA generativa capaces de convertir fotografías en vídeos dando vida, por ejemplo, a personas ya fallecidas. No obstante, la calidad conseguida y la combinación de vídeo con audio es la apuesta fuerte de Microsoft.

Es más, el gigante tecnológico menciona los beneficios de una herramienta así como apoyo terapéutico, no especifica en qué casos, pero la generación de vídeos a partir de fotos o audios de personas fallecidas se ha planteado como ayuda en el duelo de sus familiares. También aboga por su uso en educación o para mejorar la accesibilidad de personas con dificultades comunicativas.

Blown away by the results coming out of MSR this morning. Looks like scale is all you need for talking head generation! These are generated from just a single image + audio.https://t.co/tKxZtQW8cB pic.twitter.com/RdUGl6HyUs
— Jack Saunders (@jack_r_saunders) April 17, 2024

Aunque se trata aún de un proyecto en desarrollo, esta función, sumada a otras que se están creando actualmente, puede ser de utilidad en numerosas aplicaciones creativas, tanto positivas como negativas. Por ejemplo, adaptar los labios de un actor a los movimientos concretos de cada doblaje, haría más realista la traducción de películas en cada idioma.

Por supuesto, esta tecnología supone un riesgo mayor ante la posibilidad de crear deepfakes cada vez más realistas. Microsoft lo sabe e insiste en que su objetivo no es "crear contenido que se utilice para inducir a error o engañar". " Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones", añaden".

[Así creen cinco trabajadores audiovisuales que les afectará Sora, la nueva IA de vídeo de los creadores de ChatGPT]

La empresa afirma que no lanzará este modelo de forma online, mediante una API o como producto comercializable hasta que estén seguros de que se utilizará de manera responsable.

Rostros realistas

Potencial y riesgos

Más en Software