Tim Cook, CEO de Apple, sobre el logo de Peek Performance. Reuters | Omicrono

Tecnología

Apple prepara una revolución en el iPhone: Siri cambiará por completo gracias a la IA

El asistente virtual de Apple y otros servicios se reinventarán con la llegada de la IA a los equipos de la marca que anticipan estos dos proyectos.

Marta Sanz Romero

Publicada 22 diciembre 2023 11:27h

Actualizada 22 diciembre 2023 11:28h

Apple no quiere quedarse atrás ante la explosión que ha generado la inteligencia artificial con sus rivales como Google, Meta o Microsoft y OpenAI a la cabeza en desarrollo y aplicación. Los próximos años se presentan interesante con la venta de las Vision Pro, su primeras gafas de realidad virtual y la posible revitalización de Siri y sus apps con la inteligencia artificial. Para ello, la empresa está dando pasos en el desarrollo de tecnologías con las que llevar los grandes modelos de lenguaje en los que se basan los chatbots como ChatGPT a sus iPhone o generar avatares en 3D partiendo de vídeo simples.

Se sabe que Apple ha invertido 1.000 millones de dólares al año en su propia IA para aplicar en Siri, apps y nuevos dispositivos. El camino es largo, pero ya se han conocido los primeros pasos. A principios de mes lanzaba un nuevo marco, MLX, de código abierto para que otros desarrolladores elaboren modelos de inteligencia artificial en los procesadores Apple M3.

Dos nuevos estudios de investigación y desarrollo reflejan también ese esfuerzo. El primero detalla una nueva técnica para ejecutar grandes modelos de lenguaje en equipos con menor capacidad computacional y de memoria como son los iPhone o los iPad. Hay que recordar que también Intel y otros fabricantes de chips están presentando nuevos procesadores con IA para los ordenadores de 2024. En segundo lugar, han dado a conocer un método para generar avatares en 3D partiendo de vídeos cortos que podría servir de base para las realidad aumentada de las Vision Pro.

LLM en el iPhone

En el informe presentado, Apple explica que ha desarrollado una nueva forma de ejecutar grandes modelos de lenguaje (LLM) en dispositivos con memoria DRAM como son los iPhone, iPad y ordenadores. Estos modelos de inteligencia artificial generativa se suelen ejecutar en grandes servidores, por lo que su adaptación a dispositivos que usa la gran mayoría de la población sería un gran adelanto para compañías como Apple.

El artículo se ha titulado como "LLM in a flash: Efficient Large Language Model Inference with Limited Memory" y asegura haber solucionado dos barreras de la tecnología actual. Para empezar, reduce el volumen de datos transferidos desde la memoria flash. En lugar de cargar datos nuevos cada vez, el LLM reutiliza algunos de los datos ya procesados, ahorrando tiempo y energía.

Siri ahora se integra mejor con apps de mensajería que no son de Apple

Después, han ideado una forma para poder leer fragmentos más grandes de datos. En vez de leer palabra por palabra, el LLM lee grandes cantidades de datos simultáneamente, mejorando su eficiencia y rendimiento. Con esta técnica se puede ejecutar el LLM hasta el doble del tamaño de la RAM disponible, con una aceleración de 4 a 5 veces en las CPU y de 20 a 25 veces en las GPU.

Explican los ingenieros de la compañía que han puesto a prueba su técnica con el modelo LLM Falcon 7B, una versión reducida de un gran modelo de código abierto lanzado por el Instituto de Innovación Tecnológica de Abu Dhabi.

Imágenes 3D

Apple no se limita aquí, en otro artículo, investigadores de la empresa han presentado un nuevo método llamado HUGS (Human Gaussian Splats) con la intención de generar avatares animados en 3D a partir de vídeos monoculares cortos. Según explica Muhammed Kocabas, principal autor, HUGS puede aprender automáticamente a desenredar la escena estática y animar un vídeo monocular con sólo 50-100 fotogramas.

Escena generada en 3D por HUGS Apple Omicrono

Según detallan, HUGS es hasta 100 veces más rápido en entrenamiento y renderizado, superando técnicas de última generación en la reconstrucción 3D. Los investigadores aportan muestras fotorrealistas después de sólo 30 minutos de optimización en una GPU de juegos típica.

Esta tecnología aún es una propuesta de laboratorio, pero de evolucionar, es posible que sirva para generar contenido en 3D. Una de las cualidades que más llamó la atención de las Vision Pro en su presentación fue la posibilidad de crear recuerdos inmersivos a partir de grabaciones con el iPhone.