Robot Skild manipulando objetos.

Robot Skild manipulando objetos. Skild Omicrono

Hardware

Robots que aprenden a hacer tareas viendo vídeos de humanos: este modelo de IA robótico lo hace posible

Los dispositivos de esta startup se entrenan con un método conocido como 'aprendizaje omnipresente', similar al que llevan a cabo los humanos.

Más información: Así es 'Reachy', el mini robot de código abierto pensado para experimentar y programar con IA y que puedes comprar

Publicada

Si en algo concuerdan los robots humanoides presentados en España, como el NEO de 1X Tech o el Figure 03 es que requieren de unas grandes capacidades de IA que los habiliten para el mundo real.

La startup Skild AI promete poner solución al proceso de entrenamiento de estos robots con un método increíblemente sencillo en el papel: que los robots aprendan a hacer tareas viendo vídeos de humanos.

Este procedimiento, llamado "aprendizaje omnipresente", se basa en un nuevo modelo que permite aprender habilidades directamente desde demostraciones de vídeo, siendo este el único requisito para el robot.

El proceso de aprender: ver vídeos

La compañía ha dejado claro en su blog la problemática relacionada con el entrenamiento de robots centrados en propósitos generales. La startup llama a esto cuello de botella de datos.

En un contexto en el que la teleoperación está siendo la metodología más escalada por parte de los fabricantes, Skild dibuja dos desafíos que enfrenta: la diversidad, y la escala.

Robot de Skild aprendiendo.

Por un lado, la teleoperación está ligada a la presencia física; la mayoría de datos se guardan en laboratorios o entornos específicos donde ya hay robots desplegados, "lo que impide la diversidad desordenada e infinita", dice Skild.

Por el otro, está la escala. La teleoperación ocurre en tiempo real, lo que hace "matemáticamente inviable" alcanzar los billones de tokens equivalentes a los de un modelo de lenguaje grande (LLM).

La clave que cita la propia Skild está "a la vista de todos", y se basa en el mismo procedimiento de aprendizaje que nosotros, los humanos, llevamos a cabo a la hora de aprender tareas.

Esto se conoce como aprendizaje observacional, y se basa en nuestra capacidad cinemática y dinámica para observar demostraciones visuales, internalizar sus intenciones y aplicar sus acciones a nuestro cuerpo.

Robot de Skild.

Robot de Skild. Skild.ai Omicrono

Aquí se dibuja un entorno de abundancia de datos, con una cantidad prácticamente limitada de muestras; vídeos de YouTube instructivos que se cuentan por millones, grabaciones amateur...

"Los humanos no aprendemos a preparar té simplemente porque nos digan la fuerza exacta en Newton-metros que debemos aplicar a una tetera", apostilla Skild en su comunicado.

Pero, ¿por qué no se ha aplicado esta metodología? Según la startup, es debido a lo "técnicamente abrumador" que resulta adaptar todos estos datos de vídeo a un entorno robótico.

Los vídeos no muestran fuerzas subyacentes y no disponen de una retroalimentación táctil. Además, está el problema de la llamada "brecha de la personificación".

Robot en fase autónoma.

Robot en fase autónoma. Skild.ai Omicrono

Tal y como explica Skild, existen diferencias entre extremidades robóticas y robóticas. "Una mano humana, un brazo industrial de 7 grados de libertad y un cuadrúpedo tienen morfologías muy diferentes".

Este es el problema, ya que la idea de asignar la comprensión de un humano a la propia actuación de un robot resulta en "un enorme problema de traducción" a una tarea directa.

Skild, con su nuevo modelo de IA, promete permitir a los robots aprender nuevas habilidades usando vídeos simples. Aseguran haber ajustado su modelo para que ejecute nuevas habilidades usando simplemente vídeos.

Se le añade a la fórmula una "pequeña cantidad de datos del robot" equivalentes a menos de una hora de tiempo, y el robot consigue emular la tarea casi a la perfección, solucionando el cuello de botella.

Modelo de Skild.

Modelo de Skild. Skild.ai Omicrono

Una prueba en vídeo de sus robots mostró a este modelo en acción, realizando numerosas tareas usando este método con un robot humanoide que manipula objetos. Y los resultados son impresionantes.

Este modelo, dicen desde Skild, puede operar en una buena cantidad de morfologías robóticas y adaptarse a las condiciones impredecibles del mundo real, que implican incluso accidentes.

Esto ya se pudo ver hace unos meses en una demostración directa usando su modelo Skild Brain. En ella, los operarios serraban robots equipados con esta IA para que esta se adaptara en tiempo real a las circunstancias.

Esencialmente, el modelo puede ejecutarse en robots cuadrúpedos y humanoides, y adaptarse a todo tipo de situaciones, que van desde ruedas atascadas hasta caídas inesperadas.