Imagen generada por Google Omni Omicrono

Software

Google cambia las reglas de la creación de vídeo: Omni es su nueva IA y los resultados son más que espectaculares

Google prepara Omni, su nuevo modelo de vídeo por IA que permite editar y generar escenas realistas desde el chat, con una calidad no vista hasta ahora.

Más información: Así es cómo la inteligencia artificial puede ayudarte en tu día a día: los 4 ejemplos que recomiendo para hacer uso fácil

Alvarez del Vayo

Publicada 12 mayo 2026 12:26h

Actualizada 12 mayo 2026 12:32h

En unas horas se celebrará The Android Show, un evento en el que Google va a anunciar las próximas novedades de su sistema operativo. Pero el plato fuerte vendrá en el Google I/O, que se celebrará en unos días.

Uno de los lanzamientos que se espera para ese día es el último sistema de inteligencia artificial de generación de vídeo de Google, denominado Omni. Ya se han podido ver algunas creaciones realizadas con él y el resultado es francamente espectacular.

La aparición de este nuevo modelo ha sido detectada por usuarios que han tenido acceso a versiones preliminares de la plataforma. La descripción oficial del servicio invita a los creadores a mezclar sus propios vídeos o editarlos directamente mediante una interfaz de conversación.

Holllllyyyyyyyy @GeminiApp cooked 😳😳

🚨 Gemini Omni: New video model

Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ??

direct link for those who believes otherwise in comments pic.twitter.com/LUqJLXUxrf
— Chetaslua (@chetaslua) May 11, 2026

El desarrollo técnico de esta herramienta sugiere una evolución profunda dentro del ecosistema de servicios de computación en la nube de la compañía. Aunque los detalles precisos sobre su arquitectura son escasos, las pistas encontradas en el código indican una vinculación estrecha con proyectos previos de generación de vídeo.

Una de las demostraciones más comentadas es la del vídeo de un profesor escribiendo fórmulas matemáticas en una pizarra tradicional con un realismo sorprendente. El modelo logra interpretar la complejidad de las identidades trigonométricas mientras mantiene una coherencia visual en los movimientos del sujeto.

La capacidad para gestionar texto escrito dentro de una escena generada artificialmente representa un salto cualitativo respecto a versiones anteriores. Este avance permite que las escenas no solo sean estéticamente agradables, sino también informativas y lógicas en su desarrollo temporal.

Otra prueba significativa presentada en las filtraciones aborda un reto clásico dentro del sector de la computación visual. Se trata de una escena donde dos personas interactúan mientras consumen alimentos, un ejercicio que suele revelar las debilidades de los algoritmos actuales.

Vídeo creado con Google Omni Alvarez del Vayo

En este caso, la descripción detallaba a dos hombres sentados en la terraza de un restaurante de lujo frente al mar. La precisión del modelo para representar el mantel, los cubiertos y la interacción social coordinada ha dejado una impresión muy positiva en los analistas.

La narrativa visual se mantiene fluida mientras los personajes mantienen una conversación pausada entre cada bocado de pasta. Este tipo de consistencia en las leyes físicas y el comportamiento humano es lo que diferencia a este nuevo motor de sus predecesores.

Los datos de uso compartido por los primeros probadores indican que estas tareas requieren una capacidad de procesamiento considerablemente alta. Eso sí, algunos informes señalan que apenas un par de peticiones de vídeo pueden consumir la mayor parte de la cuota diaria en planes de suscripción avanzados.

Este factor sugiere que el despliegue masivo de la tecnología vendrá acompañado de nuevas estructuras de costes para el usuario final. La optimización de los recursos computacionales será clave para que esta herramienta llegue a un público más amplio en los próximos meses.

Límites de uso Omicrono

Google parece estar preparando el terreno para una presentación oficial que aclare el futuro de su estrategia en el ámbito multimedia. La mención a una asociación de este modelo con la marca Omni apunta a una integración total entre texto, audio y vídeo.

Es probable que este movimiento sea una respuesta directa a los avances presentados por otros competidores globales en el último año. El compromiso de la firma con la creación de contenido dinámico se ha vuelto más evidente tras sus últimas comunicaciones corporativas. Y ahora tienen un rival menos.

El sector espera que el evento anual para desarrolladores sea el escenario donde se desvelen todas las capacidades ocultas de esta plataforma. Allí se detallará cómo los profesionales del diseño y la comunicación podrán aprovechar estas funciones en su flujo diario de trabajo.

Eso sí, todavía existen pequeños detalles que delatan el origen artificial de las piezas. Sin embargo, la velocidad a la que mejora la precisión de estos sistemas es tan alta que esas diferencias pronto podrían ser imperceptibles.

El teléfono de Trump se desmorona: esta es la nueva cláusula de la reserva que confirma el desastre

El impacto en la creación de contenidos para redes sociales y publicidad será uno de los primeros ámbitos donde se sienta este cambio de paradigma. La posibilidad de generar maquetas de vídeo a partir de una simple frase ahorrará cientos de horas en procesos de producción tradicionales.

La versatilidad de Gemini Omni podría extenderse también al ámbito educativo, permitiendo la creación instantánea de material didáctico personalizado. Imaginar un concepto complejo y verlo representado en pantalla en segundos cambiará la forma en que consumimos información técnica.

Para entender la magnitud de este cambio, basta con observar la evolución de las interfaces de chat en los últimos dos años. Hemos pasado de simples intercambios de texto a la generación de entornos visuales completos y dinámicos con una coherencia asombrosa.

El camino hacia una inteligencia artificial multimodal completa parece estar cada vez más despejado gracias a proyectos como este. La capacidad de razonar sobre lo que ocurre en un vídeo es el siguiente gran paso que los investigadores intentan conquistar.

Más en Software