PaLM-E de Google, es el robot con IA que se convertirá en un asistente para tareas domésticas El Androide Libre

Noticias y novedades

PaLM-E de Google, el robot con IA que ve, no necesitas entrenar y realiza todo tipo de tareas

Google ha presentado a PaLM-E, un robot basado en un modelo de IA basado en la visión a diferencia de ChatGPT, como uno centrado en lo coloquial, que tiene la gran virtud de que no necesita ser entrenado.

Manuel Ramírez

Publicada 8 marzo 2023 12:53h

Bard de Google se ha quedado a medio camino de lo que supuestamente iba a ser, a la espera de Google I/O en el que presumiblemente los chicos de Mountain View volverán a mostrarlo. Aparte de ese modelo coloquial basado en IA, justo el lunes pasado un grupo de investigadores de IA de Google y la Universidad Técnica de Berlín presentaron PaLM-E.

[Cómo usar la IA de Bing en cualquier página y hacer que te resuma vídeos y webs]

PaLM-E, un robot muy capaz

PaLM-E es un robot basado en un modelo de lenguaje visual multimodal (VLM) que se caracteriza por sus 562.000 millones de parámetros que integran control robótico por visión y lenguaje.

El grupo de investigadores de IA de Google y la Universidad Técnica de Berlín mantienen que es el mayor VLM jamás desarrollado para realizar una gran variedad de tareas con el valor que significa que no necesita ser reentrenado.

Un robot que en el futuro podría sustituir las tareas domésticas que se realizan en el hogar El Androide Libre

A diferencia de otros robots que necesitan ser programados para ciertas tareas, Palm-E puede generar un plan de acción con una plataforma robótica armada con un brazo (desarrollado por Google Robotics) que ejecuta acciones por sí misma.

En un vídeo compartido por la misma Google, se puede ver al robot ejecutando la orden de sacar una bolsa de patatas fritas de un cajón para que en un momento dado, uno de los ingenieros, la devuelva a su sitio para que PaLM-E, ni en segundos, sea capaz de tomarla de nuevo para llevarla a la superficie de la encimera de la cocina.

PaLM-E ejecuta la orden "tráeme la bolsa de patatas fritas a la encimera"

Todo este proceso de acciones, vía Ars Technica, lo hace este robot con IA al analizar los datos desde la cámara que lleva incorporada sin la necesidad de reentrenarlo, lo que elimina de raíz la intervención humana.

Transfiere el conocimiento adquirido de una tarea a otra

Otro ejemplo también es muy ilustrativo, ya que el modelo PaLM-E controla un robot a través de distintas tareas con complejas secuencias que anteriormente necesitaban la guía de una persona.

In a different domain, here the **same** exact PaLM-E model is controlling a robot in real-time. This robot recently required human assistance to guide it through very long-horizon tasks (https://t.co/WkjIxMtRVz), but now PaLM-E can learn these tasks autonomously. pic.twitter.com/f02F74edMV
— Danny Driess (@DannyDriess) March 7, 2023

Su nombre se debe a estar basado en LLM, un mayor modelo de lenguaje de Google, y por incorporar información sensorial y control robótico. Lo importante de este modelo de lenguaje es que PaLM-E siempre se encuentra en una constante observación de los datos que recibe a través de los sensores y de las imágenes.

Luego lo que hace es codificarlos en una secuencia de vectores que tienen el mismo tamaño que los tokens de idioma. De esta forma, es capaz de "entender" la información visual de la misma forma que procesa el lenguaje, y al igual que hace ChatGPT al interpretar todo lo que un usuario le pregunta o solicita a través de texto.

"PaLM-E de Google sigue la instrucción "trae una estrella verde"

Y es que también Microsoft está detrás de ChatGPT for Robotics, una investigación en la que se combinan los datos visuales y los modelos mayores de lenguaje para el control robótico de la misma forma que se hace con PaLM-E.

De aquí que PaLM-E sea capaz de transferir el conocimiento y habilidades aprendidas de una tarea a otra, lo que genera finalmente un mayor rendimiento comparado a esos modelos de robots de tareas únicas.

Casi autodidacta

Los investigadores que han presentado este robot mantienen que exhibe tremendas capacidades como el razonamiento multimodal de cadena de pensamiento, lo que le permite analizar una secuencia de entradas que incluyen información visual y de lenguaje, y la inferencia de múltiples imágenes, para así usarlas como una entrada para realizar una predicción o inferencia.

Es decir, que según sea más usado va aprendiendo de todas las tareas asignadas para que sea más complejo en el tiempo. De momento, el objetivo de los investigadores de Google es explorar las aplicaciones de PaLM-E en escenarios reales como podrían ser para la automatización del hogar o robots para el sector industrial.

Hay que quedarse con la palabra "Multimodal", ya que va a ser una referencia en el mundo de la inteligencia artificial para que estos robots lleguen a ser capaces de realizar tareas cotidianas como una misma persona.