Imagen de Genie 3
Google DeepMind presenta Genie 3 y da un paso crucial hacia AGI: "Podemos marcar el comienzo de una nueva era"
El modelo Genie 3 es capaz de entender la física del mundo como una persona sabe que una copa tambaleándose sobre una mesa se puede caer.
Más información: Canvas es el arma secreta de la IA de Gemini: poca gente la está usando en España y te puede salvar en tu trabajo o estudios
Google DeepMind, a los 8 meses de lanzar Genie 2, lo ha dejado bien claro con Genie 3: es un paso crucial en el camino a la inteligencia artificial general o inteligencia tipo humana.
Cuando se entra en materia con lo nuevo de Google DeepMind, es como recordar alguno de los momentos más emblemáticos de algunas de las mejores películas de ciencia ficción, pero con la gran diferencia que es justo la realidad que estamos viviendo todos.
Shlomi Fruchter, director de investigación en DeepMind, dijo durante la presentación que "Genie 3 es el primer modelo de mundos interactivo de propósito general en tiempo real".
Sigue con: "Va mucho más allá de los modelos de mundos que han existido antes. No es específico de un entorno en particular y es capaz de generar tanto mundos imaginarios como fotorrealistas y todo lo intermedio".
Genie 3 está todavía en un previo de investigación y no de forma pública, y está diseñado sobre su predecesor Genie 2 (que genera nuevos entornos para agentes) y sobre el último modelo de generación de vídeo Veo 3 de DeepMind (que posee un entendimiento profundo de la física de los objetos).
Introducing Genie 3, the most advanced world simulator ever created, enabled by numerous research breakthroughs. 🤯
— Logan Kilpatrick (@OfficialLoganK) August 5, 2025
Featuring high fidelity visuals, 20-24 fps, prompting on the go, world memory, and more. pic.twitter.com/aTVguwTkSJ
Y aquí llega la magia (lo dicho de ciencia ficción): con un simple prompt de texto Genie 3 es capaz de generar múltiples minutos de entornos interactivos en 3D a una resolución de 720p a 24 fotogramas por segundo. Un salto importante frente a los 10 a 20 segundos que Genie 2 podía producir.
El modelo también se caracteriza por "eventos de mundo promptable" o la habilidad para usar un prompt para cambiar el mundo generado.
Prompts de eventos
Hay un aspecto importante en las simulaciones de Genie 3 y es que se mantiene físicamente consistente en el tiempo porque el modelo es capaz de recordar lo que se ha generado con anterioridad. Lo increíble es que esta capacidad de DeepMind no fue programada por los investigadores explícitamente en el modelo.
Fruchter, según TechCrunch, dijo que mientras Genie 3 tiene implicaciones para las experiencias educativas, gaming o prototipado de conceptos creativos, su gran propósito se manifestará cuando entrene agentes para tareas de propósito general, lo que es esencial para alcanzar la IAG (Inteligencia general artificial).
Y a diferencia de cómo funcionan los motores de juegos con físicas programadas, DeepMind mantiene que el modelo se entrena a sí mismo en cómo el mundo funciona y cómo los objetos se mueven, caen e interactúan. Lo hace porque recuerda qué ha generado y razonado a largo plazo.
Esa memoria, tal como dice la compañía, contribuye a la coherencia en los mundos simulados de Genie 3, lo que a su vez le permite desarrollar una comprensión de la física, similar a cómo los humanos entienden que un vaso que se tambalea en el borde de una mesa puede estar a punto de caer.
Mundo interactivo generado por Genie 3
Y volviendo a los agentes IA, el modelo es capaz de llevarlos al límite para forzarlos a que aprendan de su propia experiencia, igual a como las personas aprenden en el mundo real.
Genie 3 tiene sus limitaciones y en algunos casos no es capaz de entender la física del entorno, o que las acciones de los agentes pueden ser limitadas. Genie 3 puede crear minutos de interacción continua, pero para una de horas se necesitaría un entrenamiento apropiado.