Selección activa de políticas sin conexión.

Active offline policy selection.

El aprendizaje por refuerzo (RL) ha avanzado enormemente en los últimos años en la resolución de problemas de la vida real, y el RL fuera de línea lo ha hecho aún más práctico. En lugar de interactuar directamente con el entorno, ahora podemos entrenar muchos algoritmos a partir de un único conjunto de datos pregrabados. Sin embargo, perdemos las ventajas prácticas en eficiencia de datos del RL fuera de línea cuando evaluamos las políticas en uso.

Por ejemplo, al entrenar manipuladores robóticos, los recursos del robot suelen ser limitados, y entrenar muchas políticas mediante RL fuera de línea en un único conjunto de datos nos brinda una gran ventaja en eficiencia de datos en comparación con el RL en línea. Evaluar cada política es un proceso costoso que requiere interactuar con el robot miles de veces. Cuando elegimos el mejor algoritmo, los hiperparámetros y el número de pasos de entrenamiento, el problema se vuelve rápidamente intratable.

Para hacer que el RL sea más aplicable a aplicaciones del mundo real, como la robótica, proponemos utilizar un procedimiento de evaluación inteligente para seleccionar la política para su implementación, llamado selección activa de políticas fuera de línea (A-OPS, por sus siglas en inglés). En A-OPS, utilizamos el conjunto de datos pregrabados y permitimos interacciones limitadas con el entorno real para mejorar la calidad de la selección.

La selección activa de políticas fuera de línea (A-OPS) selecciona la mejor política de un conjunto de políticas dado un conjunto de datos pregrabados e interacciones limitadas con el entorno.

Para minimizar las interacciones con el entorno real, implementamos tres características clave:

  1. La evaluación de políticas fuera de política, como la evaluación Q ajustada (FQE, por sus siglas en inglés), nos permite hacer una suposición inicial sobre el rendimiento de cada política basada en un conjunto de datos fuera de línea. Se correlaciona bien con el rendimiento real en muchos entornos, incluida la robótica del mundo real, donde se aplica por primera vez.
Las puntuaciones FQE se alinean bien con el rendimiento real de las políticas entrenadas tanto en configuraciones de sim2real como en RL fuera de línea.

Los rendimientos de las políticas se modelan conjuntamente utilizando un proceso gaussiano, donde las observaciones incluyen las puntuaciones FQE y un pequeño número de rendimientos episódicos recién recopilados del robot. Después de evaluar una política, adquirimos conocimiento sobre todas las políticas porque sus distribuciones están correlacionadas a través del kernel entre pares de políticas. El kernel asume que si las políticas toman acciones similares, como mover el agarre robótico en una dirección similar, tienden a tener rendimientos similares.

Utilizamos puntuaciones OPE y rendimientos episódicos para modelar el rendimiento latente de la política como un proceso gaussiano.
La similitud entre las políticas se modela a través de la distancia entre las acciones que estas políticas producen.
  1. Para ser más eficiente en el uso de datos, aplicamos la optimización bayesiana y priorizamos las políticas más prometedoras para ser evaluadas a continuación, es decir, aquellas que tienen un alto rendimiento predicho y una gran varianza.

Demostramos este procedimiento en varios entornos en varios dominios: dm-control, Atari, simulados y robótica real. El uso de A-OPS reduce rápidamente el arrepentimiento y, con un número moderado de evaluaciones de políticas, identificamos la mejor política.

En un experimento robótico del mundo real, A-OPS ayuda a identificar una política muy buena más rápido que otras referencias. Encontrar una política con un arrepentimiento cercano a cero de entre 20 políticas lleva el mismo tiempo que evaluar dos políticas con los procedimientos actuales.

Nuestros resultados sugieren que es posible realizar una selección efectiva de políticas sin conexión con solo un pequeño número de interacciones con el entorno mediante la utilización de los datos sin conexión, un kernel especial y la optimización bayesiana. El código para A-OPS está disponible de forma abierta en GitHub, junto con un conjunto de datos de ejemplo para probar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

El enemigo invisible de la IA enfrentando el desafío de la materia oscura digital

La materia oscura digital es el resultado de los científicos que toman prestadas técnicas computacionales de la intel...

Inteligencia Artificial

Ex CEO de Google empoderará al ejército de Estados Unidos con IA y el Metaverso

El futuro del ejército de los Estados Unidos está a punto de experimentar una transformación revolucionaria. El cambi...

Inteligencia Artificial

Rompiendo barreras en la adaptación de dominio sin fuente el impacto de NOTELA en los dominios de bioacústica y visión

El aprendizaje profundo ha avanzado significativamente en una amplia gama de áreas de aplicación. Un factor important...

Inteligencia Artificial

AI diseña un nuevo robot desde cero en segundos

Un equipo de investigación liderado por científicos de la Universidad Northwestern creó una inteligencia artificial c...