Esta columna es de las que despiertan las brechas generacionales ocultas a primera vista. Entre quienes, allá por 1999, apenas daban sus primeros pasos, quienes ya peinaban alguna cana y quienes, por el contrario, nos entreteníamos con un juego que acababa de llegar a Europa: Pokémon.
Adictivo, entretenido y diferente. Pokémon fue un juego que marcó una época y que sigue sobreviviendo a fecha de hoy, no ya en el imaginario colectivo, sino con un sinfín de versiones, series de televisión, juegos de cartas y un largo etcétera de productos asociados a la saga. Pero, en su origen, solo había dos elecciones bien sencillas: rojo o azul, Charmander o Squirtle.
El caso es que ha surgido un nuevo aficionado a este juego, uno que ni tan siquiera estaba en el mapa allá por finales de la pasada década. Me refiero a Claude 3.7 Sonnet, el último modelo de inteligencia artificial generativa de Anthropic, al que se le ha encomendado la ardua tarea de superar todos los niveles de la edición roja. Una misión compleja, qué duda cabe, pero que todo jugador humano fue capaz de completar en un plazo de tiempo aceptable.
A few researchers at Anthropic have, over the past year, had a part-time obsession with a peculiar problem.
— Anthropic (@AnthropicAI) February 25, 2025
Can Claude play Pokémon?
A thread: pic.twitter.com/K8SkNXCxYJ
Sin embargo, parece que a Claude se le está complicando el asunto; tanto que lleva 78 horas atrapado en el Monte Luna del juego, según recogen medios como Ars Technica y Futurism. Uno de los modelos de IA más avanzados del mundo, con capacidades de razonamiento extendidas, es incapaz de progresar en una aventura diseñada para niños. Empero, este teatrillo pixelado encierra más verdad sobre el futuro de la IA que muchos informes llenos de siglas y promesas.
No es la primera vez que una inteligencia artificial se pone a jugar. Ya lo vimos en los 90, cuando Deep Blue venció al campeón del mundo de ajedrez, Garry Kasparov, y dejó a medio planeta con la mandíbula desencajada. En 2016, AlphaGo hizo lo propio en el milenario juego de Go, superando a Lee Sedol con movimientos que ni los grandes maestros humanos lograban interpretar en tiempo real. Y desde entonces, los laboratorios han hecho que las IA compitan en Dota 2, StarCraft II, Minecraft, Gran Turismo e incluso Los Sims.
A primera vista, puede parecer una auténtica bufonada pero, en realidad, estos "experimentos juguetones" son auténticas minas de oro para entender los límites y posibilidades de la inteligencia artificial. En el caso de Claude, por ejemplo, se trata de observar cómo planifica, cómo aprende del entorno, cómo recuerda (o no) lo que ha hecho, cómo se adapta —o se empeña absurdamente en hablar con el mismo personaje inútil una y otra vez.
Los videojuegos tienen algo de extraordinario valor para la IA: son mundos cerrados, complejos pero observables, donde las reglas están definidas pero la estrategia es abierta. Son el terreno de pruebas ideal entre lo abstracto y lo real. De hecho, lo que más fascina de ver a Claude jugar a Pokémon no es su éxito, sino su fracaso. Fracasa de manera humana. Se atasca. Repite errores. Duda. Corrige. Se inventa cosas. Y a veces, sin saber muy bien cómo, acierta. Es como ver a un niño pequeño aprendiendo a moverse por el mundo, pero con acceso instantáneo a todo el conocimiento acumulado por la Humanidad.
Los ingenieros lo saben. Esto va de poner a la IA en situaciones donde no hay respuestas fáciles, donde la interpretación importa tanto como el cálculo. Es descubrir que quizás no basta con tener una arquitectura sofisticada si no sabes distinguir a simple vista una casa de un árbol pixelado. Es aprender que "recordar" no es solo guardar datos, sino entender qué merece la pena recordar y qué no.
Mientras los titulares hablan de la inminente llegada de la inteligencia artificial general, de agentes autónomos y de modelos que nos superarán en todo, Claude sigue tropezando con las paredes de una cueva de Game Boy. Y eso es tranquilizador. No porque nos haga sentir superiores, sino porque nos recuerda lo mucho que falta, lo mucho que hay por entender.
Y es que, puede que, en su torpeza, esté abriéndonos camino hacia una inteligencia más profunda que cualquier benchmark.