MuZero Dominando Go, ajedrez, shogi y Atari sin reglas

MuZero dominando juegos sin reglas Go, ajedrez, shogi y Atari.

En 2016, presentamos AlphaGo , el primer programa de inteligencia artificial (IA) que derrotó a los humanos en el antiguo juego del Go. Dos años después, su sucesor – AlphaZero – aprendió desde cero a dominar el Go, el ajedrez y el shogi. Ahora, en un artículo en la revista Nature , describimos a MuZero, un paso significativo hacia adelante en la búsqueda de algoritmos de propósito general. MuZero domina el Go, el ajedrez, el shogi y Atari sin necesidad de que se le indiquen las reglas, gracias a su capacidad para planificar estrategias ganadoras en entornos desconocidos.

Durante muchos años, los investigadores han buscado métodos que puedan aprender un modelo que explique su entorno, y que luego puedan utilizar ese modelo para planificar la mejor acción a tomar. Hasta ahora, la mayoría de los enfoques han tenido dificultades para planificar de manera efectiva en dominios, como Atari, donde las reglas o la dinámica suelen ser desconocidas y complejas.

MuZero, presentado por primera vez en un artículo preliminar en 2019, resuelve este problema al aprender un modelo que se enfoca solo en los aspectos más importantes del entorno para la planificación. Al combinar este modelo con la poderosa búsqueda en árbol de anticipación de AlphaZero, MuZero estableció un nuevo estado de los resultados más avanzados en la prueba de referencia de Atari, al mismo tiempo que igualó el rendimiento de AlphaZero en los desafíos clásicos de planificación de Go, ajedrez y shogi. Al hacerlo, MuZero demuestra un avance significativo en las capacidades de los algoritmos de aprendizaje por refuerzo.

Generalización a modelos desconocidos

La capacidad de planificar es una parte importante de la inteligencia humana, lo que nos permite resolver problemas y tomar decisiones sobre el futuro. Por ejemplo, si vemos nubes oscuras formándose, podríamos predecir que lloverá y decidir llevar un paraguas con nosotros antes de aventurarnos. Los humanos aprenden esta capacidad rápidamente y pueden generalizar a nuevos escenarios, una característica que también nos gustaría que tuvieran nuestros algoritmos.

Los investigadores han intentado abordar este desafío importante en la IA mediante el uso de dos enfoques principales: búsqueda de anticipación o planificación basada en modelos.

Los sistemas que utilizan la búsqueda de anticipación, como AlphaZero, han logrado un éxito notable en juegos clásicos como las damas, el ajedrez y el póker, pero dependen de recibir conocimiento sobre la dinámica de su entorno, como las reglas del juego o un simulador preciso. Esto dificulta su aplicación a problemas del mundo real complicados y desordenados, que suelen ser complejos y difíciles de reducir a reglas simples.

Los sistemas basados en modelos tienen como objetivo abordar este problema al aprender un modelo preciso de la dinámica de un entorno y luego utilizarlo para planificar. Sin embargo, la complejidad de modelar cada aspecto de un entorno ha hecho que estos algoritmos no puedan competir en dominios visualmente ricos, como Atari. Hasta ahora, los mejores resultados en Atari provienen de sistemas sin modelo, como DQN, R2D2 y Agent57. Como su nombre sugiere, los algoritmos sin modelo no utilizan un modelo aprendido y en su lugar estiman cuál es la mejor acción a tomar a continuación.

MuZero utiliza un enfoque diferente para superar las limitaciones de los enfoques anteriores. En lugar de tratar de modelar todo el entorno, MuZero solo modela los aspectos que son importantes para el proceso de toma de decisiones del agente. Después de todo, saber que un paraguas te mantendrá seco es más útil que modelar el patrón de las gotas de lluvia en el aire.

Específicamente, MuZero modela tres elementos del entorno que son críticos para la planificación:

  • El valor: ¿qué tan bueno es la posición actual?
  • La política: ¿qué acción es la mejor a tomar?
  • La recompensa: ¿qué tan buena fue la última acción?

Estos se aprenden utilizando una red neural profunda y son todo lo que MuZero necesita para comprender qué sucede cuando realiza una determinada acción y planificar en consecuencia.

Ilustración de cómo se puede utilizar la búsqueda de árbol de Monte Carlo para planificar con las redes neuronales de MuZero. Comenzando desde la posición actual en el juego (tablero de Go esquemático en la parte superior de la animación), MuZero utiliza la función de representación (h) para mapear de la observación a una incrustación utilizada por la red neuronal (s0). Utilizando la función de dinámica (g) y la función de predicción (f), MuZero puede considerar posibles secuencias futuras de acciones (a) y elegir la mejor acción.
MuZero utiliza la experiencia que recopila al interactuar con el entorno para entrenar su red neuronal. Esta experiencia incluye observaciones y recompensas del entorno, así como los resultados de las búsquedas realizadas al decidir la mejor acción.
Durante el entrenamiento, el modelo se desenrolla junto con la experiencia recopilada, en cada paso prediciendo la información previamente guardada: la función de valor v predice la suma de recompensas observadas (u), la estimación de política (p) predice el resultado de búsqueda previo (π), la estimación de recompensa r predice la última recompensa observada (u).

Este enfoque tiene otro beneficio importante: MuZero puede usar repetidamente su modelo aprendido para mejorar su planificación, en lugar de recopilar nuevos datos del entorno. Por ejemplo, en pruebas realizadas en el conjunto de juegos de Atari, esta variante, conocida como MuZero Reanalyze, utilizó el modelo aprendido el 90% del tiempo para replanificar lo que se debería haber hecho en episodios pasados.

Rendimiento de MuZero

Elegimos cuatro dominios diferentes para probar las capacidades de MuZero. Go, ajedrez y shogi se utilizaron para evaluar su rendimiento en problemas de planificación desafiantes, mientras que utilizamos el conjunto de juegos de Atari como referencia para problemas visualmente más complejos. En todos los casos, MuZero estableció un nuevo estado del arte para algoritmos de aprendizaje por refuerzo, superando a todos los algoritmos anteriores en el conjunto de juegos de Atari y alcanzando el rendimiento sobrehumano de AlphaZero en Go, ajedrez y shogi.

Rendimiento en el conjunto de juegos de Atari utilizando 200M o 20B cuadros por ejecución de entrenamiento. MuZero logra un nuevo estado del arte en ambos casos. Todos los puntajes se normalizan en relación al rendimiento de los probadores humanos (100%), con los mejores resultados para cada caso destacados en negrita.

También probamos qué tan bien MuZero puede planificar con su modelo aprendido en más detalle. Comenzamos con el desafío clásico de planificación de precisión en Go, donde un solo movimiento puede significar la diferencia entre ganar y perder. Para confirmar la intuición de que planificar más debería conducir a mejores resultados, medimos cuánto más fuerte puede volverse una versión completamente entrenada de MuZero cuando se le da más tiempo para planificar cada movimiento (ver gráfico de la mano izquierda a continuación). Los resultados mostraron que la fuerza de juego aumenta en más de 1000 Elo (una medida de la habilidad relativa de un jugador) a medida que aumentamos el tiempo por movimiento desde una décima de segundo hasta 50 segundos. Esto es similar a la diferencia entre un jugador aficionado fuerte y el jugador profesional más fuerte.

Izquierda: La fuerza de juego en Go aumenta significativamente a medida que aumenta el tiempo disponible para planificar cada movimiento. Observe cómo la escala de MuZero casi se ajusta perfectamente a la de AlphaZero, que tiene acceso a un simulador perfecto. Derecha: La puntuación en el juego de Atari Ms Pac-Man también aumenta con la cantidad de planificación por movimiento durante el entrenamiento. Cada gráfico muestra una ejecución de entrenamiento diferente donde se permitió a MuZero considerar una cantidad diferente de simulaciones por movimiento.

Para probar si la planificación también trae beneficios durante el entrenamiento, realizamos un conjunto de experimentos en el juego de Atari Ms Pac-Man (gráfico de la mano derecha arriba) utilizando instancias de MuZero entrenadas por separado. A cada una se le permitió considerar un número diferente de simulaciones de planificación por movimiento, que iba desde cinco hasta 50. Los resultados confirmaron que aumentar la cantidad de planificación para cada movimiento permite que MuZero aprenda más rápido y logre un mejor rendimiento final.

Curiosamente, cuando a MuZero solo se le permitió considerar seis o siete simulaciones por movimiento, un número demasiado pequeño para cubrir todas las acciones disponibles en Ms Pac-Man, aún logró un buen rendimiento. Esto sugiere que MuZero es capaz de generalizar entre acciones y situaciones, y no necesita buscar exhaustivamente todas las posibilidades para aprender de manera efectiva.

Nuevos horizontes

La capacidad de MuZero para aprender un modelo de su entorno y utilizarlo para planificar con éxito demuestra un avance significativo en el aprendizaje por refuerzo y en la búsqueda de algoritmos de propósito general. Su predecesor, AlphaZero, ya se ha aplicado a una variedad de problemas complejos en química, física cuántica y más allá. Las ideas detrás de los potentes algoritmos de aprendizaje y planificación de MuZero podrían allanar el camino para enfrentar nuevos desafíos en robótica, sistemas industriales y otros entornos del mundo real desordenados donde no se conocen las “reglas del juego”.

Enlaces relacionados:

  • MuZero: Artículo en Nature
  • Charlas de MuZero: NeurIPS (9 minutos, diciembre de 2019), ICAPS (30 minutos, octubre de 2020)
  • MuZero: Preimpresión | Póster de NeurIPS 2019
  • AlphaGo: Blog | Artículo

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

AWS y Accel lanzan ML Elevate 2023 para potenciar el ecosistema de startups de IA en India

En una emocionante colaboración, Amazon Web Services (AWS) y Accel han presentado “ML Elevate 2023”, un r...

Inteligencia Artificial

Una introducción práctica a los LLMs

Este es el primer artículo de una serie sobre el uso de Modelos de Lenguaje Grande (LLMs) en la práctica. Aquí daré u...

Inteligencia Artificial

Fraude impulsado por IA 'Deepfake' La batalla continua de Kerala contra los estafadores

En los últimos meses, Kerala ha sido testigo de un aumento en una forma insidiosa de fraude que explota la tecnología...

Inteligencia Artificial

EE.UU. busca malware chino que podría perturbar las operaciones militares estadounidenses

Los funcionarios de inteligencia estadounidenses creen que el malware podría darle a China el poder de interrumpir o ...

Aprendizaje Automático

La carrera para evitar el peor escenario para el aprendizaje automático

Las compañías de inteligencia artificial tienen ventaja en bloquear la creación y distribución de material de abuso s...

Inteligencia Artificial

ExLlamaV2 La biblioteca más rápida para ejecutar LLMs

ExLlamaV2 es una biblioteca diseñada para exprimir aún más rendimiento de GPTQ. Gracias a nuevos kernels, está optimi...