LLM.

LLM. Pexels

Tecnológicas

El coste de entrenar modelos de IA generativa se desplomará, pero su uso podría ser más caro para las empresas

El coste de inferencia de los modelos con un billón de parámetros caerá más de un 90% hasta 2030, según Gartner.

Más información: 2026, la inteligencia artificial prepara su asalto a los mercados

Publicada

Las claves

El coste de entrenar modelos de IA generativa caerá más de un 90% hasta 2030, según Gartner.

Esta reducción de costes no se trasladará directamente a las empresas usuarias, que podrían pagar más si no mejoran su arquitectura tecnológica.

La bajada se debe a mejoras en eficiencia de semiconductores, infraestructura e innovación en el diseño de chips.

El consumo de tokens aumentará, y si la demanda supera el abaratamiento, el precio general de uso de IA podría incrementarse para las compañías.

A pesar de que el mercado de la tecnología está alcanzando cotas muy altas de tensión debido a la subida de los precios de chips y otros componentes -derivadas, entre otros factores, de las demandas de la inteligencia artificial-, los costes de entrenar y operar modelos de lenguaje grandes (LLM, de sus siglas inglesas) caerán en picado durante los próximos años.

Así lo estima Gartner, que prevé que el coste de inferencia de los modelos con un billón de parámetros se reduzca en más de un 90% de aquí a 2030. Eso sí, esta bajada no llegará a las empresas que utilizan esta tecnología, ya que, sin una arquitectura adecuada, pueden ver incrementado el precio.

Además, el análisis no comprende los conflictos geopolíticos que puedan afectar a esta tecnología y, además, matiza, no hay una relación directa entre esto y que sea posible que se democratice “la inteligencia de vanguardia”.

En cualquier caso, los costes de estos modelos serán hasta 100 veces más bajos que cuando empezaron a ser desarrollados en 2022 debido principalmente a la combinación de mejoras en la eficiencia de los semiconductores y la infraestructura, a la innovación en el diseño, un mayor uso de silicio especializado en inferencia y a la aplicación de dispositivos periféricos para casos de uso específicos.

Para la realización del estudio, la consultora se ha basado en el token como unidad de datos que procesan los modelos de inteligencia artificial generativa. Uno de estos equivale a aproximadamente 3,5 bytes.

De este modo, se vislumbran dos escenarios en el ecosistema de los semiconductores para dicha bajada. Uno primero de vanguardia, en el que el procesamiento del modelo se basa en la representación de chips de última generación. Y un segundo en el que se establece una mezcla representativa de semiconductores actualmente disponibles. En este contexto los costes son considerablemente más altos que en los de vanguardia.

Una bajada que no llegará a las compañías

La caída en el coste de los tokens de los principales proveedores de IA generativa no tendrá una traslación directa a las organizaciones que utilizan estos modelos. Asimismo, dice Gartner, la IA de vanguardia requerirá de muchos más tokens que las aplicaciones convencionales. Por ejemplo, los modelos agénticos requieren entre cinco y 30 veces más por tarea que un asistente conversacional estándar.

Y, aunque la disminución del precio permitirá capacidades tecnológicas más avanzadas, la demanda de tokens se disparará. Por lo que, si el consumo aumenta más que el coste, el precio general de la inferencia se incrementará.

Por último, concluye el informe, las plataformas que puedan orquestar cargas de trabajo en una cartera diversa de modelos obtendrán más valor. “Las tareas rutinarias y eficientes deben ir a LLMs más eficientes, pequeños y específicos, mientras que la inferencia de modelos de vanguardia debe estar estrictamente controlada y reservada exclusivamente para tareas de razonamiento complejas y de alto margen”.

“No se debería confundir la devaluación de los tokens básicos con la democratización del razonamiento de frontera” reza el estudio. “A medida que la IA se estandariza y tiende a reducir su coste casi a cero, la capacidad de procesamiento y los sistemas necesarios para respaldar los avances siguen siendo escasos. Los directivos que hoy encubren las ineficiencias de arquitectura con tokens baratos se encontrarán con que la escalabilidad de los agentes será inalcanzable mañana”.