Rendimiento sobrehumano en la prueba Atari 100K El poder de BBF – Un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal.

BBF un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal logra rendimiento sobrehumano en la prueba Atari 100K.

El aprendizaje por refuerzo profundo (RL) ha surgido como un algoritmo de aprendizaje automático poderoso para abordar tareas de toma de decisiones complejas. Para superar el desafío de lograr una eficiencia en la muestra a nivel humano en el entrenamiento de RL profundo, un equipo de investigadores de Google DeepMind, Mila y la Universidad de Montreal ha presentado un nuevo agente de RL basado en el valor llamado “más rápido, mejor, más rápido” (BBF). En su reciente artículo, “Más grande, mejor, más rápido: Atari a nivel humano con eficiencia a nivel humano”, el equipo presenta el agente BBF, demostrando un rendimiento superhumano en la prueba de referencia Atari 100K utilizando una sola GPU.

Abordando el problema de escala

El enfoque principal del equipo de investigación fue abordar el problema de escala de las redes neuronales en RL profundo cuando hay muestras limitadas. Sobre la base del agente SR-SPR desarrollado por D’Oro et al. (2023), que utiliza un método de reducción y perturbación, BBF perturba el 50% de los parámetros de las capas convolucionales hacia un objetivo aleatorio. En contraste, SR-SPR perturba solo el 20% de los parámetros. Esta modificación resulta en una mejora en el rendimiento del agente BBF.

Aumentar la capacidad de la red

Para aumentar la capacidad de la red, los investigadores utilizan la red Impala-CNN y aumentan el tamaño de cada capa cuatro veces. Se observó que BBF supera constantemente a SR-SPR a medida que se aumenta el ancho de la red, mientras que SR-SPR alcanza su punto máximo a 1-2 veces el tamaño original.

Mejoras para un mejor rendimiento

BBF introduce un componente de horizonte de actualización que disminuye exponencialmente de 10 a 3. Sorprendentemente, esta modificación produce un agente más fuerte que los agentes de valor fijo como Rainbow y SR-SPR. Además, los investigadores aplican una estrategia de decaimiento de peso y aumentan el factor de descuento durante el aprendizaje para aliviar los problemas de sobreajuste estadístico.

Estudio empírico y resultados

En su estudio empírico, el equipo de investigación compara el rendimiento del agente BBF con varios agentes de RL de línea de base, incluidos SR-SPR, SPR, DrQ (eps) e IRIS, en la prueba de referencia Atari 100K. BBF supera a todos los competidores en cuanto a rendimiento y costo computacional. Específicamente, BBF logra una mejora del 2x en el rendimiento sobre SR-SPR mientras utiliza casi los mismos recursos computacionales. Además, BBF demuestra un rendimiento comparable al enfoque EfficientZero basado en modelos, pero con una reducción de más del 4x en el tiempo de ejecución.

Implicaciones futuras y disponibilidad

La introducción del agente BBF representa un avance significativo en la consecución de un rendimiento superhumano en RL profundo, especialmente en la prueba de referencia Atari 100K. El equipo de investigación espera que su trabajo inspire futuros esfuerzos para impulsar los límites de la eficiencia de la muestra en RL profundo. El código y los datos asociados con el agente BBF están disponibles públicamente en el repositorio de GitHub del proyecto, lo que permite a los investigadores explorar y construir sobre sus hallazgos.

Con la introducción del agente BBF, Google DeepMind y sus colaboradores han demostrado un progreso notable en el aprendizaje por refuerzo profundo. Al abordar el desafío de la eficiencia de la muestra y aprovechar los avances en la escalabilidad y las mejoras de rendimiento de la red, el agente BBF logra un rendimiento superhumano en la prueba de referencia Atari 100K. Este trabajo abre nuevas posibilidades para mejorar la eficiencia y efectividad de los algoritmos de RL, abriendo el camino para nuevos avances en el campo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de la NTU de Singapur proponen IT3D un nuevo método de refinamiento de IA Plug-and-Play para la generación de texto a 3D.

Ha habido un notable progreso en el dominio de texto a imagen, lo que ha generado una oleada de entusiasmo dentro de ...

Inteligencia Artificial

Principales extensiones de Chrome con inteligencia artificial AI

La idea de una máquina que escriba por ti ha pasado de ser ciencia ficción a realidad gracias a los avances en la tec...

Inteligencia Artificial

Álgebra Lineal 1 Ecuaciones Lineales y Sistemas

Esta es la primera entrega de lo que será una serie continua sobre los fundamentos del Álgebra Lineal, las matemática...

Inteligencia Artificial

Las características de IA SaaS se encuentran con aplicaciones sin fosos

Varias empresas de SaaS han anunciado recientemente características de IA generativa, lo cual representa una amenaza ...