Publicada

Los robots humanoides han dejado de ser una mera cuestión de ciencia ficción y han pasado a ser una realidad en España y en China, país donde están los modelos más avanzados.

Un equipo de ingeniería de Columbia ha destacado por un nuevo logro en este difícil campo: el desarrollo de un robot humanoide —o más bien, un rostro— que ha podido aprender a hablar.

Y lo ha hecho con un proceso de aprendizaje observacional, que consistió primero en 'practicar' frente a un espejo y luego ver decenas de horas de vídeos de YouTube para conseguir articular palabras en varios idiomas.

El robot que aprendió a hablar con YouTube

El estudio se ha publicado en la revista Science Robotics, y expone cómo los investigadores llevaron a cabo este proceso, que llevó a que este robot pudiera aprender de la misma forma en la que lo hacen los humanos.

Y es que la expresividad es una de las tareas pendientes de los robots de la actualidad. Algo irónico, debido a que las personas prestamos una gran atención a este campo a la hora de interactuar entre nosotros.

Demostración de EMO

Tanto es así que en una conversación, casi la mitad de la atención se centra exclusivamente en el movimiento de los labios. Por motivos evidentes, los robots suelen tener problemas para moverlos y expresarse.

Mientras que los humanos tenemos músculos que podemos mover a placer, los robots tienen que integrar todo tipo de sistemas que permitan este tipo de movimientos faciales.

Es aquí donde entra en juego el llamado 'Valle Inquietante', un fenómeno que se produce cuando vemos gestos o movimientos que se salen de lo común o de lo que asociamos como puramente humano.

Debido a que los robots parecen piezas de tecnologías inertes que en la mayoría de casos no tienen expresividad, al intentar emularla presentan este 'valle inquietante'.

Portada de Science Robotics. Columbia Engineering Omicrono

El robot del equipo de ingeniería de Columbia modifica esta idea, con un conjunto de hasta 26 motores faciales que se entrenaron con este aprendizaje observacional y no con reglas ya establecidas.

No estamos hablando de nada baladí. Si se busca un movimiento labial real, el robot requiere una buena cantidad de hardware avanzado, con piel facial flexible accionada por motores diminutos.

Estos motores a su vez deben trabajar en conjunto de forma silenciosa y rápida. Además, se necesita un patrón específico aplicado a la dinámica labial, algo muy complejo que se dicta por secuencias de sonidos vocales y fonemas.

Los investigadores hablan de un movimiento forzado, antinatural y misterioso debido a que los rostros de los robots humanoides son rígidos y con pocos grados de movimiento. Además, sus labios ya están coreografiados.

EMO. Columbia Engineering Omicrono

La clave del éxito fue un rostro flexible "y altamente funcional" que permitía que el robot pudiera aprender a usar su rostro directamente observando a humanos.

En un primer momento, se colocó el rostro robótico equipado con motores faciales frente a un espejo, para que su sistema de visión aprendiera cómo se mueve su propio rostro en respuesta a la actividad muscular.

Esto llevó a que el robot llamado EMO pudiera mover sus motores para lograr apariencias faciales específicas, aplicando un modelo de lenguaje de visión a acción (VLA).

Posteriormente, el rostro fue puesto delante de vídeos de personas cantando o hablando directamente a cámara. De esta forma, la IA que controla al robot podía aprender movimientos concretos.

EMO, el robot de Columbia Engineering. Columbia Engineering Omicrono

O más bien, podía aprender la forma en la que se podían mover las bocas humanas en el contexto de los diferentes sonidos que estos emitían. La IA podía traducir el audio directamente a movimientos labiales concretos.

La cantidad de resultados fue tal, que los investigadores probaron este sistema usando varios idiomas, contextos y sonidos, incluyendo canciones.

El robot pudo mover los labios de forma sincronizada sin conocimiento previo del significado de los fragmentos del audio. Eso sí, el movimiento labial sigue sin ser perfecto, ni mucho menos.

Ciertos sonidos, como la B o los que implican fruncir los labios como la W presentaron dificultades. Sin embargo, esperan que a medida que este enfoque observacional se afiance, se logren mejores resultados.

Robot de Columbia. Columbia Engineering Omicrono

Yuhang Hu, director del estudio para su doctorado, aseguró que combinando la sincronización labial con IAs conversacionales como Gemini o ChatGPT, "el efecto añade una nueva profundidad a la conexión que el robot establece con el humano".

En palabras de Hu, cuando más observe el robot a los humanos conversar, "mejor imitará los gestos faciales sutiles con los que podemos conectar emocionalmente".

Si nos ceñimos a la interacción puramente humana, la afección facial es el gran "eslabón perdido" de la robótica. Los investigadores creen que es igualmente importante para aplicaciones robóticas que impliquen interacciones de este estilo.

A medida que los robots encuentren aplicaciones que requieran más de estas interacciones, los rostros cálidos serán más prioritarios, especialmente con el auge de los robots humanoides en los próximos años.

Hod Lipson, profesor de Innovación en el Departamento de Ingeniería Mecánica y director del Laboratorio de Máquinas Creativas de Columbia, aclara: "cuanto más interactúe con humanos, mejor será".