La Inteligencia Artificial de Elon Musk ha conseguido demostrar que es la mejor jugando a la Atari; y no se me ocurre ninguna demostración de fuerza mejor.

El interés de Elon Musk por las IA no es nada nuevo, aunque siempre de manera cautelar; no hace tanto que dijo que la IA era como “invocar al demonio”.

El gran miedo de Musk y otros expertos es el daño que una IA mal usada podría provocar a la humanidad; por eso a finales de 2015 inició el proyecto OpenAI, una organización sin ánimo de lucro que busca investigar y colaborar para crear una IA “amigable”.

Neuroevolución para crear una IA amigable

Para ello, los investigadores de OpenAI se han centrado en un campo que tuvo cierto éxito en la década de los 80; pero que desde entonces ha sido sustituido por otras corrientes.

Se llama “neuroevolución”, y concretamente se centraron en las “estrategias evolutivas”; en otras palabras, que la IA evolucione con las experiencias que ha “vivido”, inspirándose en la evolución biológica.

atari openai 2

Concretamente, la clave de la estrategia evolutiva es que un sistema que haya tenido éxito pasará sus características a sus “sucesores”. Así, de una selección de candidatos se eligen a los que tienen mejor rendimiento; de esta forma se aseguran de que futuras versiones estarán a la altura.

Como hemos dicho, este concepto ya tiene décadas encima; el logro que han conseguido los investigadores es aplicarlo a las redes neuronales y a sistemas distribuidos. Pero, ¿cómo saben que este tipo de IA tiene tanto potencial?

Los investigadores tenían claro a quién tenían que vencer: a DeepMind, la compañía de Google cuyo logro más reciente ha sido crear AlphaGo, el programa que venció al mejor jugador de Go del mundo.

No es solo el Go. DeepMind ha conseguido enfrentarse a algunos de los juegos de Atari más difíciles, y ha salido victoriosa. Por lo tanto, en OpenAI decidieron que el combate se decidiría con videojuegos.

Cómo la Inteligencia Artificial de Elon Musk ha aprendido a jugar a Atari

Hay que tener en cuenta que estas IA no saben ni siquiera cómo jugar. De entrada, el sistema de OpenAI sólo recibió normas aleatorias sobre cómo conseguir una puntuación alta.

A partir de ese conjunto de órdenes se realizaron varios cientos de copias con variaciones aleatorias, y se probaron en el juego. Teniendo en cuenta los resultados, el sistema volvió a mezclar estas normas; pero dando más peso a las que habían conseguido la puntuación más alta.

atari openai 3

Este proceso se repitió constantemente, hasta que finalmente el sistema descubre una serie de normas adecuadas para jugar.

Según OpenAI, en sólo una hora el sistema consiguió ser tan bueno jugando como DeepMind después de todo un día de entrenamiento.

La clave para conseguir estos resultados está en la multitarea; como cada conjunto de normas se procesa de manera independiente, fueron capaces de ocupar 1440 procesadores con ellas al mismo tiempo.