Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una definición matemática precisa.

Los avances recientes en el aprendizaje profundo por refuerzo (RL) han demostrado un rendimiento sobrehumano por parte de los agentes de inteligencia artificial (IA) en una variedad de tareas impresionantes. Los enfoques actuales para lograr estos resultados consisten en desarrollar un agente que aprende principalmente cómo dominar una tarea específica de interés. Los agentes no entrenados tienen que realizar estas tareas con frecuencia, y no hay garantía de que se generalicen a nuevas variaciones, incluso para un modelo RL simple. Por el contrario, los humanos adquieren continuamente conocimientos y se generalizan para adaptarse a nuevos escenarios durante su vida. Esto se denomina aprendizaje continuo por refuerzo (CRL).

La visión del aprendizaje en RL es que el agente interactúa con el entorno markoviano para identificar un comportamiento óptimo de manera eficiente. La búsqueda del comportamiento óptimo cesaría en el punto de aprendizaje. Por ejemplo, imagina jugar un juego bien definido. Una vez que has dominado el juego, la tarea está completa y dejas de aprender sobre nuevos escenarios de juego. Se debe considerar el aprendizaje como una adaptación interminable en lugar de verlo como encontrar una solución.

El aprendizaje continuo por refuerzo (CRL) implica este tipo de estudio. Es un aprendizaje supervisado, interminable y continuo. Los investigadores de DeepMind formalizan la noción de agentes en dos pasos. Uno es entender que cada agente está buscando implícitamente un conjunto de comportamientos y el otro es que cada agente continuará la búsqueda para siempre o eventualmente se detendrá en una elección de comportamiento. Los investigadores definen un par de generadores relacionados con los agentes como generadores de operadores de alcance. Utilizando este formalismo, definen CRL como un problema de RL en el que todos los agentes nunca detienen su búsqueda.

La construcción de una red neuronal requiere una base con cualquier asignación de pesos en sus elementos y un mecanismo de aprendizaje para actualizar los elementos activos de la base. Los investigadores afirman que, en CRL, el número de parámetros de la red está limitado por lo que podemos construir y el mecanismo de aprendizaje se puede considerar como un descenso de gradiente estocástico en lugar de un método de búsqueda de la base de manera no restringida. Aquí, la base no es arbitraria.

Los investigadores eligen una clase de funciones que actúan como representaciones del comportamiento y utilizan reglas de aprendizaje específicas para reaccionar a las experiencias de manera deseable. La elección de la clase de funciones depende de los recursos disponibles o de la memoria. El método de descenso de gradiente estocástico actualiza la elección actual de la base para mejorar el rendimiento. Aunque la elección de la base no es arbitraria, esto implica el diseño del agente, así como las restricciones impuestas por el entorno.

Los investigadores afirman que un estudio más detallado de las reglas de aprendizaje puede modificar directamente el diseño de nuevos algoritmos de aprendizaje. Caracterizar la familia de reglas de aprendizaje continuo garantizará el rendimiento de los agentes de aprendizaje continuo, lo que se puede utilizar para guiar el diseño de agentes de aprendizaje continuo fundamentados. También tienen la intención de investigar métodos adicionales como la pérdida de plasticidad, el aprendizaje en contexto y el olvido catastrófico.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google presenta Project IDX un paraíso para desarrolladores basado en navegador impulsado por IA.

Rompiendo barreras y empujando los límites de la innovación en IA, Google ha presentado su último proyecto, Project I...

Inteligencia Artificial

¡No, no, no lo pongamos ahí! Este método de IA puede realizar edición de diseño continua con modelos de difusión

En este punto, todos están familiarizados con los modelos de texto a imagen. Se hicieron conocidos con el lanzamiento...

Inteligencia Artificial

Detecta contenido perjudicial utilizando la detección de toxicidad de Amazon Comprehend

Las comunidades en línea están impulsando el compromiso de los usuarios en industrias como los videojuegos, las redes...

Inteligencia Artificial

Las mejores herramientas de Data Warehousing en 2023

Un almacén de datos es un sistema de gestión de datos para informes, análisis y almacenamiento de datos. Es un almacé...

Inteligencia Artificial

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Los investigadores han explorado el potencial de utilizar imágenes sintéticas generadas por modelos de texto a imagen...