IA de Google.

IA de Google. Google DeepMind Omicrono

Hardware

Un robot capaz de buscar en Google qué tiene que hacer antes de actuar: la última revolución de DeepMind

Los nuevos modelos de la firma de Silicon Valley razonan sus tareas incluso antes de tener que realizarlas, suponiendo un auténtico avance.

Más información: Nvidia, Disney y Google sorprenden con un robot capaz de moverse por sí mismo: así es la plataforma para entrenarlos

Publicada

Google es una de tantas firmas dedicada al campo de la robótica. En España hemos podido comprobar cómo la firma aspira a que los robots sean inteligentes por sí mismos, gracias a modelos como Gemini Robotics para incorporar acciones físicas.

En un nuevo impulso dentro de esta era de los que Google llama "agentes físicos", Google de la mano de DeepMind ha anunciado dos nuevos modelos dentro de este campo, Gemini Robotics 1.5 y Gemini Robotics-ER.15.

Una de las mejores novedades dentro de estos modelos reside en la propia búsqueda de Google, ya que el modelo Gemini Robotics-ER 1.5 no solo maneja la actividad del robot como si fuera un cerebro avanzado, sino que tiene acceso a Google para buscar información.

Gemini Robotics: la IA que busca en Google

La propia Google relata uno de los grandes problemas a los que se enfrentan los robots humanoides a la hora de realizar sus tareas: la información contextual, los datos necesarios para dar los pasos necesarios en pos de completar sus requerimientos.

Robotics-ER 1.5, el modelo de visión-lenguaje (VLM) recién presentado por Google tiene la ventaja de ser tremendamente eficaz al planificar sus siguientes tareas. Algo similar ocurre con la toma de decisiones lógicas en entornos físicos.

Gemini Robotics 1.5

Pero su comprensión espacial y su buen hacer en la interacción con el lenguaje natural no son sus únicas bondades. Según Google, ahora este VLM puede acceder de forma nativa a herramientas como el buscador de Google.

Con este sistema, el modelo permite al robot buscar información o directamente usar funciones de terceros ya predefinidas por el propio usuario. El modelo se encarga de proporcionar instrucciones en lenguaje natural a cada paso.

Para ello, el modelo usa la visión y la comprensión del lenguaje para ejecutar las tareas directamente. Robotics 1.5 ayuda al robot incluso a "reflexionar sobre sus acciones" para resolver las tareas semánticamente más complejas.

Según Google DeepMind, Robotics 1.5 es capaz además de explicar los procesos de pensamiento que lleva a cabo en un lenguaje natural, lo que favorece la transparencia y claridad de sus decisiones de cara al usuario.

Gemini Robotics 1.5

DeepMind define el tándem de estos dos robots de la siguiente forma. Gemini Robotics-ER 1.5 es el 'orquestador', el maestro de orquesta que realiza el razonamiento y determina qué herramienta usar buscando en la web de Google.

El modelo VLA Gemini Robotics 1.5, por su lado, es el apoyo de Robotics ER.15 para reflexionar y planear estas acciones. Tras los procesos de razonamiento y pensamiento, Robotics-ER 1.5 se apoya a Robotics 1.5.

En definitiva, ambos modelos trabajan de forma conjunta, con el objetivo de resolver algunos de los problemas principales del mundo físico. Según expone DeepMind, el dúo de modelos se ha optimizado con conjuntos de datos distintos para especializarse en sus respectivas funciones.

Sin embargo, cada uno de estos modelos destaca sobremanera por sus propias capacidades. Gemini Robotics-ER 1.5 es el primer modelo de pensamiento optimizado para el razonamiento incorporado, dice Google.

Gemini 1.5

ER 1.5 consigue, dice DeepMind, un rendimiento espectacular en las pruebas de referencia académicas e internas, "inspirado en casos prácticos reales de nuestro programa de probadores de confianza".

Por otro lado, Gemini Robotics 1.5 piensa antes de actuar, siendo capaz de generar "una secuencia interna de razonamiento y análisis en lenguaje natural para realizar tareas que requieren varios pasos o una comprensión semántica más profunda", dice Google.

Un ejemplo. El robot se enfrenta a la tarea de clasificar ropa según el color. El robot de Google piensa en varios niveles, entendiendo en primer lugar que la clasificación por color implica poner la ropa blanca en el contenedor blanco. Una vez hecho esto, el robot ahora considera los pasos a seguir.