Ángel Galán Carqués.

Ángel Galán Carqués.

Opinión HUMANIZANDO LA TECNOLOGÍA

'Learning is all you need'

Ángel Galán Carqués
Publicada

Este ha sido el año en que la inteligencia artificial se ha colado definitivamente en todas partes: en las presentaciones a inversores, en los planes de país y en los anuncios de cualquier gran tecnológica. Y, al mismo tiempo, el año en el que hemos empezado a hablar abiertamente de burbuja de IA: valoraciones que se justifican por el número de GPUs encargadas, por los gigavatios de los nuevos centros de datos o por la capacidad de fabricar chips “para la inteligencia artificial”. Según un análisis de la firma Linklaters sobre más de cincuenta fondos inmobiliarios globales, alrededor del 40% del capital invertido se destina específicamente a centros de datos. A veces uno no sabe si está leyendo sobre IA o si hemos vuelto a 2008, en plena burbuja del ladrillo.

Buena parte de las elevadas sumas de inversión de esta ola no está yendo tanto a la “inteligencia” en sí como a la infraestructura que la sostiene: fábricas de chips, nubes, redes, centros de datos repartidos por medio mundo. Tampoco es la primera vez que nos pasa. En la primera ola de internet, lo que primero se sobredimensionó fueron las telecos y los proveedores de fibra. Compañías como Cisco llegaron a ser, durante un tiempo, la empresa cotizada más valiosa del mundo en plena burbuja dot-com. Salvando las distancias, los paralelismos con el recorrido actual de NVIDIA y otras firmas de semiconductores son, como mínimo, evidentes.

En aquella ocasión, cuando quedó claro que el uso real de internet no crecía al ritmo del PowerPoint, esas valoraciones se hundieron y la infraestructura se fue transformando en una commodity. Sobre esa base, con el tiempo, compañías como Google, Amazon o Netflix emergieron como los auténticos ganadores. La lección fue clara: no bastaba con desplegar kilómetros de fibra y vender routers, hacían falta modelos de negocio capaces de aprovechar de verdad esa red. Con la IA puede ocurrir algo parecido: no bastará con construir centros de datos y acumular GPUs, hará falta saber qué hacemos con ese “cerebro” y cómo le enseñamos a aprender.

Con la inteligencia artificial generativa estamos viviendo esa primera fase de “ladrillo digital”. Los grandes modelos de lenguaje se entrenan mediante un preentrenamiento inicial y reentrenos periódicos que exigen una cantidad descomunal de cómputo. Algo que ha convertido la evolución de los modelos en una carrera que se dirime a base de más datos, más máquinas y más GPUs. Por debajo y a nivel técnico, muchos de esos modelos comparten arquitecturas muy similares y aprenden de manera muy parecida.

Ese cerebro común nació en un artículo de 2017, Attention Is All You Need, que presentó la arquitectura Transformer, el motor de GPT y compañía. Sobre ese diseño se ha construido casi todo: modelos cada vez más grandes, entrenados con cantidades masivas de datos y de capacidad de cálculo. Desde entonces, casi todo el mundo ha recurrido al mismo motor, ajustando el tamaño y los datos, pero manteniendo una forma de aprender muy similar.

Aquí aparece, además, una paradoja difícil de ignorar. Pasamos el día hablando a nuestros clientes de simplificar, de automatizar, de hacer los procesos más ligeros y transparentes. Pero, por debajo, les proponemos apoyarse en infraestructuras cada vez más complejas: modelos gigantescos que muy pocos entienden de verdad. Les pedimos procesos sencillos apoyados en sistemas que se parecen más a una caja negra que a una herramienta transparente. Y precisamente en ese momento aparece la pregunta incómoda: si todos estamos compartiendo los mismos modelos genéricos, ¿dónde está realmente nuestra ventaja competitiva?

Ocho años después de aquel trabajo, desde el mismo Google Research que alumbró ese salto, llega otro artículo académico presentado este otoño en NeurIPS 2025: Nested Learning: The Illusion of Deep Learning Architectures. Su mensaje resulta incómodo para quienes disfrutan de la fiesta del ladrillo digital: quizá parte de la respuesta no esté en seguir ampliando centros de datos, sino en revisar cómo y cuándo aprenden esos modelos, optimizando la capacidad de cómputo que ya tenemos.

Este enfoque llega justo cuando exprimir un poco más ese motor empieza a ofrecer rendimientos decrecientes. En lugar de centrarse en tener la arquitectura más grande, nos invita a mirar al algoritmo de aprendizaje: a revisar cómo aprende el modelo con el paso del tiempo. En vez de un único gran preentrenamiento, Nested Learning propone organizar el modelo en varios niveles de aprendizaje que conviven: uno más rápido, otro más lento, otro más estable. Algo que permite al modelo adaptarse según su experiencia y modificar su comportamiento a lo largo del tiempo.

Todo esto deja de ser teoría cuando lo llevamos al día a día de una organización. Con el enfoque clásico, el modelo se entrena, se pone en producción y, a partir de ahí, cualquier cambio importante exige una nueva “obra” de datos y cómputo. El aprendizaje está pensado para el laboratorio, no para la vida real. Nested Learning cambia esa lógica: el modelo puede seguir aprendiendo de forma ordenada a lo largo de su vida útil. Una parte se ajusta con rapidez a lo que ve cada día —nuevos tipos de consultas, cambios regulatorios, patrones de fraude emergentes—, otra consolida lo que se mantiene en el tiempo y otra protege el conocimiento estructural.

Si todo esto suena familiar es porque, en el fondo, nosotros también aprendemos así. No tenemos una única memoria: mezclamos lo que nos pasa hoy, lo que hemos ido consolidando con los años y un fondo de conocimiento que apenas cambia. Pensamos por capas: intuición rápida, reflexión pausada, experiencia acumulada.

Para una empresa, eso significa que el “cerebro” de su IA no tiene por qué ser el mismo que utiliza el resto del mundo. A partir de un modelo base, el algoritmo de Nested Learning puede ir creando una memoria propia, afinada con sus datos, sus procesos y sus decisiones. Dos compañías que partan del mismo modelo generalista pueden acabar teniendo inteligencias muy distintas si diseñan de forma diferente qué aprende deprisa, qué se revisa despacio y qué nunca se toca sin una buena razón. Ahí es donde empieza a aflorar la ventaja competitiva real: no tanto en el modelo que eliges, sino en cómo le enseñas a aprender de tu realidad.

Eso abre un espacio nuevo de responsabilidad y de oportunidad. Responsabilidad, porque decidir cómo aprende un modelo es casi tan importante como decidir qué hace. Y oportunidad, porque quienes sepan diseñar bien ese aprendizaje van a ser quienes conviertan una misma base tecnológica en inteligencias claramente distintas, ajustadas a cada contexto. De esa forma, dejaremos de hablar de los modelos de IA como una simple secuencia de versiones que se suceden —GPT-4, GPT-5, GPT-lo-que-venga—. Con enfoques como Nested Learning, empezaremos a hablar más bien de trayectorias de aprendizaje: de modelos que crecen con las organizaciones que los utilizan.

Si algo nos enseñó la burbuja de las dot-com es que llenar el mapa de infraestructuras nunca fue la solución, solo el síntoma del exceso. Hoy, en un mundo desbordado de cómputo, la ventaja no la tendrán quienes añadan más ladrillos de silicio, sino quienes usen su inteligencia —humana y artificial— con un poco más de sentido común. Porque, en última instancia, en esta historia learning es, de verdad, all you need.

*** Ángel Galán Carqués es director de área de Data & IA en IMMUNE Technology Institute.