Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.

Investigadores de UC Berkeley presentan VIPER, un algoritmo que utiliza modelos de predicción de video preentrenados como recompensa para el aprendizaje por refuerzo sin acción.

El diseño de una función de recompensa manualmente es lento y puede resultar en consecuencias no deseadas. Esto es un obstáculo importante en el desarrollo de agentes de toma de decisiones genéricos basados en aprendizaje por refuerzo (RL).

Los métodos anteriores de aprendizaje basado en video recompensaron a los agentes cuyas observaciones actuales son más parecidas a las de los expertos. No pueden capturar actividades significativas a lo largo del tiempo, ya que las recompensas dependen únicamente de la observación actual. Y la generalización se ve obstaculizada por las técnicas de entrenamiento adversarial que conducen a la colapso del modo.

Investigadores de U.C. Berkeley han desarrollado un método novedoso para extraer incentivos de modelos de predicción de video llamado Video Prediction incentives for reinforcement learning (VIPER). VIPER puede aprender funciones de recompensa a partir de películas en bruto y generalizar a dominios no entrenados.

Primero, VIPER utiliza películas generadas por expertos para entrenar un modelo de predicción. Luego, se utiliza el modelo de predicción de video para entrenar a un agente en aprendizaje por refuerzo para optimizar la log-verosimilitud de las trayectorias del agente. La distribución de las trayectorias del agente debe minimizarse para que coincida con la distribución del modelo de video. Utilizando las verosimilitudes del modelo de video como señal de recompensa directamente, el agente puede ser entrenado para seguir una distribución de trayectoria similar a la del modelo de video. A diferencia de las recompensas a nivel observacional, las proporcionadas por los modelos de video cuantifican la consistencia temporal del comportamiento. También permite marcos de tiempo de entrenamiento más rápidos y mayores interacciones con el entorno, ya que evaluar verosimilitudes es mucho más rápido que hacer simulaciones del modelo de video.

A través de 15 tareas de DMC, 6 tareas de RLBench y 7 tareas de Atari, el equipo realiza un estudio exhaustivo y demuestra que VIPER puede lograr un control a nivel de experto sin usar recompensas de tarea. Según los hallazgos, los agentes de RL entrenados con VIPER superan al aprendizaje por imitación adversarial en general. Dado que VIPER está integrado en el entorno, no importa qué agente de RL se utilice. Los modelos de video ya son generalizables a combinaciones de brazo/tarea no encontradas durante el entrenamiento, incluso en el régimen de conjuntos de datos pequeños.

Los investigadores creen que el uso de modelos de video condicionales grandes y pre-entrenados permitirá funciones de recompensa más flexibles. Con la ayuda de los avances recientes en modelado generativo, creen que su trabajo proporciona a la comunidad una base para la especificación escalable de recompensas a partir de películas sin etiquetar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Principales herramientas/plataformas de Visión por Computadora en 2023

La visión por computadora permite a las computadoras y sistemas extraer información útil de fotos digitales, videos y...

Ciencia de Datos

La guía de campo de datos sintéticos

Si quieres trabajar con datos, ¿cuáles son tus opciones? Aquí tienes una respuesta lo más general posible podrías obt...

Inteligencia Artificial

Haciendo la vida más amigable con robots personales

Sharifa Alghowinem, una científica investigadora del Media Lab, explora la tecnología de robots personales que explic...

Inteligencia Artificial

OpenAI revela ChatGPT Enterprise con el poder de GPT-4

OpenAI, la organización pionera en investigación de IA, acaba de presentar un nuevo capítulo emocionante en el mundo ...

Inteligencia Artificial

Todo lo que necesitas saber sobre la serie de modelos de lenguaje (LLMs) Qwen Large

Los modelos de lenguaje grandes (LLMs) han remodelado significativamente el panorama de la Inteligencia Artificial (I...