Publicada

En pocos años, la cocina se ha llenado de pantallas, robots y algoritmos. De los primeros procesadores de alimentos que solo trituraban se ha pasado a sofisticados dispositivos conectados a Internet como la Thermomix TM7, con recetas guiadas y decenas de funciones que hacen mucho más sencillo preparar platos complejos.

Al mismo tiempo, TikTok, YouTube e Instagram han convertido los vídeos paso a paso en la versión contemporánea de los clásicos libros de cocina. La irrupción de las IAs generativas como ChatGPT, capaces de sugerir menús, adaptar recetas a intolerancias y crear platos con lo que haya en la nevera, parecía la guinda del pastel de esta nueva cocina asistida.

Hay quien ha querido dar un paso más y lleva años desarrollando CHEF-VL, un modelo de inteligencia artificial de visión-lenguaje que puede convertirse en la base del asistente definitivo de una cocina inteligente.

En el artículo científico publicado en ACM IMWUT, se aborda cómo se está entrenando el modelo con datos de entrenamiento de cientos de participantes, y cómo optimizarlo para conseguir mejores resultados.

El uso de CHEF-VL está pensado especialmente para personas con deterioro cognitivo subjetivo (DCS, por sus siglas en inglés), un término clínico que describe a quienes empiezan a percibir problemas de memoria o planificación, aunque aún son capaces de vivir solos.

Por eso, aclaran los investigadores, el objetivo de su IA no es cocinar, sino monitorizar cómo las personas ejecutan distintas tareas culinarias y detectar cuándo desordenan los pasos, se saltan uno o repiten acciones sin sentido para corregirlos de forma sutil y poco invasiva.

Vigilancia paso a paso

El equipo liderado por el ingeniero informático Ruqui Wang, becado por Google por su investigación, montó una cocina inteligente con una cámara cenital. Este dispositivo fue el encargado de grabar en vídeo a más de 100 participantes, con y sin DCS, mientras preparaban gachas de avena siguiendo instrucciones paso a paso.

Durante el proceso, especialistas y estudiantes de terapia ocupacional anotaron a mano los errores: pasos omitidos, acciones en orden incorrecto, repeticiones innecesarias o situaciones potencialmente inseguras, como dejar que el agua hierva tanto que se derrame fuera de la olla.

La secuencia incluía acciones como reunir los ingredientes, hervir el agua, añadir la avena, remover, servir y recoger los utensilios para ponerlos en el fregadero, lo que generó un amplísimo catálogo de gestos y posibles errores de orden, omisiones y potenciales problemas de seguridad.

Imagen cenital de la cocina que se usó para las pruebas de CHEF-VL Ruiqui Wang / WashU Omicrono

Esa codificación humana sirvió para validar y ajustar el algoritmo, comparando qué fallos detectaba el sistema y cuáles se le escapaban.

Estos errores no son únicamente despistes aislados, sino patrones que pueden indicar un deterioro en funciones ejecutivas, como la planificación o el control de la atención. Detectarlos a tiempo permite diseñar ayudas discretas, desde un recordatorio en voz alta hasta una luz de aviso, que guíen al usuario sin quitarle control ni perjudiquen su autoestima.

"Somos conscientes de que incluso las personas sin deterioro cognitivo cometen errores al cocinar, pero esta puede ser una tarea muy difícil para quienes sí lo sufren", señala el propio Wang en un comunicado de prensa.

Así, los investigadores fueron afinando este CHEF-VL, "un modelo de IA de última generación que comprende conjuntamente texto, imágenes y vídeos", según Wang.

Comprensión del mundo real

Más allá de su carácter multimodal, la IA "demuestra una sólida comprensión del mundo real, junto con capacidades de razonamiento. Esto es exactamente lo que queremos en la cocina inteligente, porque la forma en que las personas completan las tareas puede ser muy diversa".

A partir de la secuencia grabada, la IA identifica qué está haciendo el usuario en cada momento y lo compara con el orden correcto descrito en la receta.​

Una mujer cocinando un plato en la sartén. Freepik Omicrono

Cuando detecta una discrepancia, un paso adelantado, uno omitido o una repetición que no toca, los marca como posibles errores de secuenciación cognitiva.

El diseño busca que el sistema pueda, en el futuro, traducir esos fallos en avisos o recordatorios discretos, en lugar de mensajes agresivos que rompan la sensación de autonomía del usuario.

En las pruebas de laboratorio, CHEF-VL fue capaz de identificar buena parte de los errores de orden registrados por los terapeutas humanos, validando el enfoque de usar IA de visión-lenguaje para este tipo de tareas domésticas.

El análisis también permitió ver qué tipos de fallos son más difíciles de captar, lo que ayudará a mejorar el modelo y ajustar mejor los umbrales de detección.

Los autores subrayan que se trata de un primer paso y que el sistema aún no está listo para usarse sin supervisión en hogares reales, ya que se trata de una fase experimental.

Las pruebas se han hecho en un entorno controlado, con una receta muy concreta y una única cámara, por lo que harían falta nuevos estudios en hogares reales y con tareas más variadas.

A medio plazo, los investigadores plantean la integración de sistemas similares con robots de cocina comerciales, altavoces inteligentes, sensores domésticos o incluso IAs conversacionales tipo ChatGPT que ya proponen menús y recetas personalizadas.

La combinación de estas piezas del puzle podría dar lugar a una cocina inteligente que no solo indica qué hacer, sino que entiende cómo se comporta cada persona y le ofrece ayuda adaptada, incluso si su memoria y su atención empiezan a fallar.