Las escaseces del futuro de la IA de hoy

La revolución de la inteligencia artificial, como era de esperar, está generando escaseces nuevas de las que los economistas hablamos, pero sin entrar en mucho detalle porque se trata de cuestiones muy técnicas. Por ejemplo, llevamos meses hablando de escasez de chips, pero de manera demasiado vaga y no se ve del todo el eje del problema.

Me refiero al HBM, la memoria de alto ancho de banda. Entender qué es, quién la controla y por qué está a punto de dejar de ser el único freno define quién gana la próxima década económica.

El silicio es, literalmente, arena procesada y no escasea realmente. Lo que escasea es ese tipo muy específico de memoria, apilada en capas microscópicas, soldada directamente encima del chip procesador, capaz de mover datos a velocidades que la memoria convencional no puede alcanzar y que solo fabrican tres empresas en el mundo, SK Hynix, Samsung y Micron y cuya capacidad de producción está enteramente comprometida hasta 2027.

Pero hay un punto que suele pasar desapercibido. Fabricar HBM consume las mismas obleas de silicio que se usarían para hacer la memoria de un portátil o un teléfono. Es decir, compiten en un juego de suma cero.

Cada chip GPU para inteligencia artificial desplaza memoria para el resto de la electrónica de consumo. De ahí que los precios de memoria hayan subido entre un 30 y un 60% en el último año y que las ventas de smartphones estén acusando el golpe.

La inversión global de las grandes tecnológicas en esta infraestructura supera los 650.000 millones de dólares en 2026

¿Por qué la IA necesita esta memoria especial? Porque los modelos de lenguaje no solo calculan, sino que también recuerdan. De manera que, para generar cada palabra de una respuesta, el sistema debe leer en paralelo dos almacenes de datos: el registro de la conversación y los parámetros del propio modelo.

Son lecturas masivas, repetidas miles de veces por segundo, dado el incremento en el uso de IA, y la velocidad a la que se mueven esos datos determina si el sistema es útil o frustrante. Las GPUs de la empresa Nvidia dominan el mercado precisamente porque combinan potencia de cálculo con grandes cantidades de HBM y redes de comunicación que permiten que miles de chips trabajen como uno solo.

La inversión global de las grandes tecnológicas en esta infraestructura supera los 650.000 millones de dólares en 2026, y sigue creciendo. Hay que tener en cuenta que las grandes empresas de IA necesitan que el uso sea masivo porque cada millón de interacciones es un mapa de errores y aciertos que les permite afinar el comportamiento del modelo. Sin escala de usuarios, ese proceso de mejora es ciego.

Así que el cuello de botella se estrecha progresivamente. ¿Cómo lo resuelven empresas como OpenAI, Anthropic o Google donde envías texto o imágenes a sus servidores y recibes respuestas? Pagas por token (aproximadamente por palabra) o por suscripción, y todo corre en sus GPUs en la nube.

Es verdad que la memoria no es el único límite que se está tensando. Los centros de datos de inteligencia artificial son devoradores de electricidad de una magnitud que la planificación energética de casi ningún país ha absorbido todavía.

La guerra por el futuro de la computación se está librando en un terreno ambiguo, con reglas distintas y con ganadores que todavía no aparecen en los titulares

La construcción de plantas de generación energética tarda entre cinco y diez años, pero la demanda de IA no espera. El resultado es que hay proyectos de centros de datos aprobados que no pueden arrancar porque no hay red eléctrica que los sostenga.

Podríamos analizar a demanda de agua para refrigerar los sistemas como un tercer recurso escaso. Pero hoy quiero centrarme en los GPUs a raíz de un artículo publicado por Ben Thompson en Stratechery.

El punto central de Thompson es que la inteligencia artificial está a punto de bifurcarse en dos tipos de uso con requisitos de infraestructura radicalmente distintos. El primero es el que ya conocemos, cualquiera de nosotros hace una pregunta y el sistema responde en tiempo real.

El segundo es lo que Thompson llama inferencia agéntica, es decir, sistemas que ejecutan tareas complejas, como análisis, código, decisiones encadenadas, sin que ningún humano esté mirando la pantalla, muchas veces durante horas y enlazando acciones de forma autónoma.

La diferencia es de ingeniería y de economía. Porque cuando hay un humano impaciente esperando, la velocidad importa y justifica el precio de la HBM, la memoria de alto ancho.

Cuando no hay nadie esperando, es decir, cuando un agente trabaja mientras dormimos, la velocidad deja de ser el factor crítico. Y si la velocidad no es crítica, la memoria de alto ancho de banda tampoco lo es. Para ese tipo de trabajo autónomo basta con memoria convencional, más lenta y mucho más barata. Lo que hoy es un mercado cautivo de tres fabricantes de HBM se convierte en un mercado abierto donde compiten tecnologías abundantes y accesibles.

Las implicaciones para el mapa de poder tecnológico son muy importantes. Por ejemplo, Nvidia construyó su hegemonía sobre la ventaja de chips rapidísimos, memoria rapidísima, redes rapidísimas.

Esa ventaja es perfecta para usuarios de a pie, pero es muy cara para agentes que trabajan sin prisa. Por eso, la empresa ha lanzado Dynamo, un sistema para separar las distintas fases del proceso y no desperdiciar hardware caro. Pero la lógica económica que quiero resaltar es implacable, cuando el problema cambia, el líder de la solución anterior empieza a ser vulnerable.

No sabemos quiénes serán los beneficiados de este giro, pero sí parece claro que las empresas (y los países) que quieran liderar serán aquellos capaces de desarrollar una estrategia que tenga en cuenta esta evolución. La guerra por el futuro de la computación se está librando en un terreno ambiguo, con reglas distintas y con ganadores que todavía no aparecen en los titulares. Identificar ese desplazamiento antes de que sea obvio es, precisamente, para lo que sirve el análisis económico.