La UNESCO y la UCL plantean usar modelos más pequeños y usar la técnica de cuantificación para reducir el consumo energético de la inteligencia artificial generativa.

La UNESCO y la UCL plantean usar modelos más pequeños y usar la técnica de cuantificación para reducir el consumo energético de la inteligencia artificial generativa.

Investigación

Inteligencia artificial: cómo reducir un 90% su consumo energético sin perder precisión

La inteligencia artificial generativa ya consume tanta energía como un país de bajos ingresos. Pero un nuevo estudio plantea una alternativa basada en la especialización, compresión y prompts más breves.

Más información: Margaret Mitchell: "La gente habla de ética en inteligencia artificial, nunca lo hubiera imaginado hace diez años"

Publicada

Más de mil millones de personas utilizan herramientas de inteligencia artificial generativa a diario. Cada una de sus interacciones consume energía: aproximadamente 0,34 vatios/hora por mensaje. Haciendo una sencilla suma, la cifra asciende a 310 gigavatios/hora al año, equivalente al consumo eléctrico anual de más de tres millones de personas en un país de bajos ingresos.

No es de extrañar que esta problemática sea una de las más mentadas a la hora de escalar la IA y más cuando ya estamos anticipando la llegada de los agentes autónomos. Y que también sea terreno fértil para numerosas investigaciones que busquen cómo reducir ese consumo energético sin que la tecnología pierda su magia.

Es el caso de los expertos de la University College London (UCL) y la UNESCO, quienes plantean una alternativa viable: optar por modelos más pequeños que los actuales LLM para hacer que la IA sea más ligera, eficiente y sostenible. El documento, titulado Smarter, Smaller, Stronger: Resource-Efficient AI and the Future of Digital Transformation, demuestra que es posible reducir hasta en un 90% el consumo energético de los LLM sin sacrificar su precisión ni su utilidad.

“El consumo energético de la IA generativa ya es comparable al de un país entero”, advierte Tawfik Jelassi, subdirector general de Comunicación e Información de la UNESCO. “Necesitamos un cambio de paradigma urgente en cómo usamos y desarrollamos estos modelos. Podemos reducir el impacto climático de la IA sin renunciar a sus beneficios, lo que necesitamos es usarla de forma más inteligente”.”.

Ese cambio requiere tan sólo una serie de ajustes técnicos al alcance de la comunidad investigadora y de la industria. Para demostrarlo, los expertos de UCL analizaron el comportamiento energético de Meta LLaMA 3.1 8B, uno de los modelos de código abierto más populares, y lo compararon bajo diferentes configuraciones y enfoques. Lo que descubrieron podría marcar un antes y un después.

Modelos específicos

El primer hallazgo es que no siempre se necesita un modelo gigantesco para obtener buenos resultados. De hecho, los modelos de propósito general —como GPT-4 o Claude— son excesivos para muchas tareas cotidianas, como resumir un texto, traducir una frase o responder una pregunta factual.

Al probar versiones más pequeñas del modelo, ajustadas a tareas concretas, los investigadores comprobaron que, para resumir textos, los modelos compactos consumieron 15 veces menos energía. En tareas de traducción, el ahorro energético fue de 35 veces; mientras que para preguntas y respuestas, la diferencia alcanzó un factor de 50.

Lo más sorprendente es que estos modelos más pequeños no solo mantenían la precisión, sino que en algunos casos la mejoraban: +4% en resumen, +2% en traducción, +3% en QA, respecto al modelo generalista.

Este enfoque modular —lo que en arquitectura de IA se conoce como mixture of experts— permitiría diseñar sistemas compuestos por múltiples modelos especializados que se activan solo cuando son necesarios, en lugar de mantener siempre activo un modelo monolítico y costoso.

Prompts y respuestas más cortas

El segundo gran factor de eficiencia identificado es el tamaño de los mensajes que intercambiamos con la IA. Si una consulta o su respuesta se alargan innecesariamente, el modelo consume más tokens, más memoria y más ciclos de procesamiento.

Reducir la respuesta de 400 a 200 palabras logró un ahorro energético del 54%. Solo recortar el prompt supuso un ahorro menor (5%), pero significativo cuando se multiplica por millones de usuarios.

Compresión de modelos mediante cuantización

La tercera técnica analizada por la UNESCO y la UCL es la cuantización, un proceso que reduce la precisión con la que se almacenan y procesan los números dentro del modelo. En lugar de usar 16 o 32 bits por número, se utilizan 8 o incluso 4 bits, lo que reduce el tamaño del modelo y disminuye drásticamente la energía necesaria para ejecutarlo.

La cuantización permitió ahorros de hasta un 44% de energía sin apenas pérdida de precisión (por encima del 97% en la mayoría de los casos).