Durante el año 2025, las técnicas de generación de deepfakes experimentaron una evolución drástica. La calidad de las imágenes de rostros, voces y cuerpos enteros generadas por sistemas de inteligencia artificial “mejoró” significativamente, superando con creces lo que muchos expertos imaginaban hace apenas unos años.
Un deepfake no es una imagen con un simple retoque ejecutado en Photoshop. Tampoco un divertido filtro de FaceApp o un cambio de cara en BeautyPlus o Snapchat. Habitualmente son inofensivos. Estas aplicaciones de tecnología de alteración fotográfica están diseñadas para el entretenimiento. Habitualmente es fácil distinguir que las imágenes son falsas y no reflejan la realidad.
Eso es precisamente lo que hace peligrosas las deepfakes. No son simple maquillaje. La aplicación del aprendizaje profundo (el denominado deep learning) para producir imágenes falsas crea un mundo donde los humanos a menudo no pueden distinguir si los vídeos son falsos.
En la sociedad actual, la gran mayoría de las personas se informan sobre el mundo y se forman opiniones basándose en internet. Por lo tanto, cualquiera con la capacidad de crear deepfakes puede difundir desinformación e influir en las masas para que se comporten alineados con sus intereses personales.
La desinformación basada en deepfakes puede causar estragos a escala micro y macro. De hecho, los vídeos se utilizan cada vez más para engañar a los espectadores. En muchas situaciones cotidianas, en particular en videollamadas de baja resolución y contenido compartido en redes sociales, su realismo es ahora suficiente para engañar con fiabilidad al público no especializado. En la práctica, los medios sintéticos se han vuelto indistinguibles de las grabaciones auténticas para el público en general e, incluso, para las instituciones.
Lamentablemente, la evolución no es sólo en calidad. El volumen de deepfakes generados también se ha disparado. La empresa de ciberseguridad DeepStrike estima que de unos 500.000 vídeos de este tipo ‘fabricados’ en 2023 se ha pasado a casi 8 millones en 2025, con un crecimiento anual cercano al 900 %.
Si atendemos a estas cifras, es probable que la situación empeore para 2026, a medida que los deepfakes se conviertan en entidades sintéticas capaces de interactuar con humanos en tiempo real. Pero, ¿cuál es la explicación tecnológica para esta escalada?
En primer lugar, el realismo ha alcanzado un nuevo nivel gracias a los modelos de generación de vídeo diseñados específicamente para mantener la consistencia temporal.
Estos modelos producen vídeos con movimiento consistente, identidades estables para las personas representadas y un contenido lógico entre fotogramas. Separan la información relacionada con la representación de la identidad de una persona de la información relacionada con el movimiento, lo que permite aplicar el mismo movimiento a diferentes identidades o, a la inversa: una identidad con varios tipos de movimiento.
Estos modelos generan rostros estables y consistentes, sin parpadeos, distorsiones o anomalías estructurales alrededor de los ojos y la mandíbula que antes eran signos técnicos confiables de los deepfakes.
En segundo lugar, la clonación de voz ha superado lo que llamaríamos el "umbral de indistinguibilidad". Unos pocos segundos de audio bastan ahora para generar un clon convincente con entonación, ritmo, acentos, emociones, pausas e incluso sonidos respiratorios naturales. Esta capacidad ya está fomentando el fraude a gran escala.
Grandes minoristas han explicado que reciben más de 1.000 llamadas fraudulentas generadas por IA al día. Las claves perceptivas que antes permitían identificar voces sintéticas prácticamente han desaparecido.
En tercer lugar, las herramientas de consumo han reducido la barrera técnica a casi cero. Los desarrollos de OpenAI con Sora 2, Google con Veo 3 y la aparición de una oleada de startups permiten que hoy en día solo se necesite describir una idea y dejar que un modelo de lenguaje extenso como ChatGPT de OpenAI o Gemini de Google escriba un script para generar contenido audiovisual refinado en minutos.
Los agentes de IA pueden automatizar todo el proceso. Por lo tanto, la capacidad de producir deepfakes coherentes y narrativos a gran escala se ha vuelto ampliamente accesible. Esta combinación de explosión de volumen y figuras sintéticas que se han vuelto casi indistinguibles de los seres humanos reales plantea serios desafíos para la detección de deepfakes, especialmente en un entorno donde la atención está fragmentada y el contenido circula más rápido de lo que puede verificarse.
Ya se han observado daños muy reales —desde desinformación hasta acoso selectivo y estafas financieras— facilitados por deepfakes que se difunden antes de que el público pueda comprender qué pasa.
Para los próximos años, la trayectoria es clara: los deepfakes se están orientando hacia la síntesis en tiempo real, capaz de producir vídeos que reproducen fielmente las sutilezas de la apariencia humana, facilitando la evasión de los sistemas de detección.
La frontera se está desplazando del realismo visual estático a la consistencia temporal y conductual: modelos que generan contenido en vivo o casi en vivo, en lugar de secuencias pregrabadas. El modelado de identidad está convergiendo hacia sistemas unificados que capturan no solo la apariencia de una persona, sino también cómo se mueve y habla en diferentes contextos.
El resultado va más allá de simplemente "esto se parece a la persona X" a "esto se comporta como la persona X con el tiempo". Debemos esperar y ver participantes en videollamadas sintetizados en tiempo real; actores sintéticos controlados por IA cuyos rostros, voces y gestos se adaptan instantáneamente a las instrucciones; y estafadores que implementan avatares responsivos en lugar de videos estáticos.
A medida que estas capacidades se desarrollen, la brecha perceptual entre los humanos auténticos y los sintéticos seguirá reduciéndose. La verdadera línea de defensa ya no dependerá del juicio humano, sino de las salvaguardas a nivel de infraestructura.
Esto incluye mecanismos de trazabilidad seguros, como la firma de medios criptográficos y la adopción de las especificaciones de la Coalición para la Procedencia y Autenticidad del Contenido por parte de las herramientas de generación de IA.
También dependerá de herramientas de análisis multimodal. Simplemente examinar cuidadosamente los píxeles ya no será suficiente. Porque hemos entrado de lleno en la era de lo indistinguible.