Publicada

El verano pasado Google DeepMind presentó Genie 3, su modelo de mundo que con descripciones de texto genera entornos fotorrealistas que se exploran en tiempo real. Ya está disponible por primera vez para los usuarios con Google AI Ultra.

Desde hoy mismo, Google DeepMind abre las puertas a la creación de Project Genie, aunque de momento solo disponible en Estados Unidos.

Este prototipo de investigación experimental, según cita Google desde su blog, permite a los usuarios crear, explorar y remezclar sus propios mundos interactivos.

Los usuarios ya están probando el "constructor de mundos" que, entre otras cosas, permite generarlos desde una única foto.

Hay un ejemplo que refleja perfectamente el potencial que tiene Genie 3: tomar la foto de la mascota para que se convierta en la protagonista de nuestro propio juego.

Project Genie 3 simulando un pez en un mundo acuático

En un vídeo se puede ver cómo el usuario mueve a su mascota con los controles típicos W, S, A y D más la tecla espacio a través de la habitación que Genie 3 ha generado de la fotografía hecha.

Google DeepMind explica cómo funciona esta 'magia' al simular las dinámicas de un entorno, predecir cómo evoluciona y cómo las acciones le afectan.

Este proyecto de Google forma parte de una misión más importante y es dirigirse al AGI (Inteligencia Artificial General).

Al igual que las experiencias explorables de las instantáneas 3D estáticas, Genie 3 se encarga de generar el camino por delante en tiempo real según el usuario se mueve e interactúa por el mundo.

Simula la física y las interacciones del mundo dinámicas, mientras que su consistencia revolucionaria permite la simulación de cualquier escenario del mundo real.

Es decir, que se puede simular desde la exploración de ubicaciones y entornos históricos hasta la robótica y el modelado de animación y ficción.

Cómo funciona Project Genie

Los usuarios con Google AI Ultra pueden utilizar Project Genie como un prototipo de app web, impulsada por Genie 3, Nano Banana Pro y Gemini, y que permite experimentar de primera mano las experiencias inmersivas del modelo del mundo.

Se centra en tres capacidades fundamentales. La primera es el uso de prompts de texto o la carga de imágenes para crear un entorno vivo y en expansión.

Foto de la mascota en la izquierda y el mundo generado a la derecha

Se crea un personaje, el mundo y se define cómo se ha de explorar, ya sea desde caminar hasta montar, volar o conducir. Las posibilidades aquí son infinitas.

Nano Banana Pro, el modelo de IA viral de Google, hace su aparición para previsualizar el aspecto que tendrá el mundo para realizar una edición antes de generarlo.

La segunda capacidad es la exploración del mundo. Es un entorno que se va generando según las acciones que tomemos en tiempo real.

Se permite ajustar la cámara según se navega a través del mundo que hemos creado a través de texto o la carga de una imagen (como la de la mascota).

Tomando la foto del mundo que se va a generar con Genie 3 de Google DeepMind Google DeepMind

La tercera es la remezcla de mundos existentes para crear nuevas interpretaciones, y basándose en prompts.

Project Genie aquí permite explorar mundos seleccionados en la galería, al igual que realizar uno aleatorio para buscar inspiración o usarlo como base.

Finalmente, Genie permite la descarga de vídeos de los mundos y exploraciones generadas.

De momento, hay una serie de limitaciones o áreas de mejora, según mantiene Google desde el anuncio en su blog:

  • Los mundos generados no siempre parecen totalmente reales o se ajustan siempre fielmente a los prompts, imágenes o la física del mundo real.
  • Los personajes pueden sufrir latencia.
  • Las generaciones tienen un límite de 60 segundos.

Se puede acceder a Genie 3 a través de este enlace al igual que el resto de información del modelo de mundos de Google.