Métodos de Monte Carlo

Métodos de Monte Carlo

Guía para el Aprendizaje por Reforzamiento de un Robot Bebé

Una Introducción al Aprendizaje por Reforzamiento: Parte 4

Todas las imágenes por el autor

Introducción

Una vez más nos dirigimos al casino, y esta vez está situado en la soleada Monte Carlo, famosa por su aparición en la clásica película Madagascar 3: Los fugitivos (aunque existe una ligera posibilidad de que ya fuera famosa).

En nuestra última visita a un casino, examinamos el problema del bandido armado múltiple y lo utilizamos como una forma de visualizar el problema de cómo elegir la mejor acción cuando nos enfrentamos a muchas posibles acciones.

En términos de Aprendizaje por Reforzamiento, el problema del bandido se puede considerar como la representación de un único estado y las acciones disponibles dentro de ese estado. Los métodos de Monte Carlo extienden esta idea para cubrir múltiples estados interrelacionados.

Además, en los problemas anteriores que hemos examinado, siempre se nos ha proporcionado un modelo completo del entorno. Este modelo define tanto las probabilidades de transición, que describen las posibilidades de pasar de un estado a otro, como la recompensa recibida por realizar esta transición.

En los métodos de Monte Carlo esto no es el caso. No se proporciona ningún modelo y en su lugar, el agente debe descubrir las propiedades del entorno a través de la exploración, recopilando información a medida que se mueve de un estado a otro. En otras palabras, los métodos de Monte Carlo aprenden de la experiencia.

Los ejemplos de este artículo utilizan el entorno personalizado Baby Robot Gym Environment y todo el código relacionado se puede encontrar en Github.

Además, se puede encontrar una versión interactiva de este artículo en forma de cuaderno, donde realmente se puede ejecutar todos los fragmentos de código descritos a continuación.

Todos los artículos anteriores de esta serie se pueden encontrar aquí: Guía para el Aprendizaje por Reforzamiento de un Robot Bebé.

Y, para un breve resumen de la teoría y la terminología utilizada en este artículo, echa un vistazo a Valores de Estado y Evaluación de Políticas en 5 minutos.

Predicción de Monte Carlo

En el problema de predicción queremos encontrar qué tan bueno es estar en un estado particular del entorno. Esta “bondad” se representa por el estado…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Más allá de Photoshop Cómo Inst-Inpaint está revolucionando la eliminación de objetos con modelos de difusión

El inpainting de imágenes es un arte antiguo. Es el proceso de eliminar objetos no deseados y rellenar píxeles faltan...

Inteligencia Artificial

¿Se cayó ChatGPT? ¡Tiempo de inactividad y rápida recuperación del AI de OpenAI!

La comunidad de inteligencia artificial sufrió un breve revés. ChatGPT, un popular chatbot desarrollado por OpenAI, e...

Inteligencia Artificial

Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la ...