Un paso hacia pilotos automáticos seguros y confiables para volar.

A step towards safe and reliable automatic pilots for flying.

Un nuevo enfoque basado en inteligencia artificial para controlar robots autónomos satisface los objetivos a menudo conflictivos de seguridad y estabilidad.

MIT researchers developed a machine-learning technique that can autonomously drive a car or fly a plane through a very difficult “stabilize-avoid” scenario, in which the vehicle must stabilize its trajectory to arrive at and stay within some goal region, while avoiding obstacles.

En la película “Top Gun: Maverick”, Maverick, interpretado por Tom Cruise, tiene la tarea de entrenar a jóvenes pilotos para completar una misión aparentemente imposible: volar sus jets profundamente en un cañón rocoso, manteniéndose tan bajos al suelo que no puedan ser detectados por el radar, luego subir rápidamente fuera del cañón en un ángulo extremo, evitando las paredes rocosas. Advertencia de spoiler: con la ayuda de Maverick, estos pilotos humanos logran su misión.

Por otro lado, una máquina lucharía por completar la misma tarea emocionante. Para una aeronave autónoma, por ejemplo, el camino más directo hacia el objetivo entra en conflicto con lo que la máquina necesita hacer para evitar chocar con las paredes del cañón o mantenerse indetectable. Muchos métodos de IA existentes no pueden superar este conflicto, conocido como el problema de estabilización-evitación, y no podrían alcanzar su objetivo de manera segura.

Los investigadores del MIT han desarrollado una nueva técnica que puede resolver problemas complejos de estabilización y evitación mejor que otros métodos. Su enfoque de aprendizaje automático coincide o supera la seguridad de los métodos existentes al proporcionar un aumento de diez veces en la estabilidad, lo que significa que el agente alcanza y permanece estable dentro de su región objetivo.

En un experimento que haría sentir orgulloso a Maverick, su técnica pilotó efectivamente un avión a reacción simulado a través de un corredor estrecho sin estrellarse contra el suelo.

“Este ha sido un problema desafiante y de larga data. Muchas personas lo han examinado, pero no sabían cómo manejar dinámicas tan complejas y de alta dimensión”, dice Chuchu Fan, profesor asistente Wilson de Aeronáutica y Astronáutica, miembro del Laboratorio de Sistemas de Información y Decisión (LIDS) y autor principal de un nuevo artículo sobre esta técnica.

Fan es acompañado por el autor principal Oswin So, un estudiante graduado. El artículo será presentado en la conferencia de Robótica: Ciencia y Sistemas.

El desafío de estabilización y evitación

Muchos enfoques abordan problemas complejos de estabilización y evitación simplificando el sistema para que puedan resolverlo con matemáticas sencillas, pero los resultados simplificados a menudo no se sostienen en las dinámicas del mundo real.

Técnicas más efectivas utilizan el aprendizaje por refuerzo, un método de aprendizaje automático donde un agente aprende por ensayo y error con una recompensa por el comportamiento que lo acerca a un objetivo. Pero aquí realmente hay dos objetivos: permanecer estable y evitar obstáculos, y encontrar el equilibrio adecuado es tedioso.

Los investigadores del MIT dividieron el problema en dos pasos. Primero, reformularon el problema de estabilización y evitación como un problema de optimización restringido. En esta configuración, resolver la optimización permite al agente alcanzar y estabilizarse en su objetivo, lo que significa que se mantiene dentro de una cierta región. Aplicando restricciones, aseguran que el agente evite obstáculos, explica So.

Luego, para el segundo paso, reformularon ese problema de optimización restringido en una representación matemática conocida como la forma epígrafa y lo resolvieron utilizando un algoritmo de aprendizaje por refuerzo profundo. La forma epígrafa les permite evitar las dificultades que enfrentan otros métodos al utilizar el aprendizaje por refuerzo. 

“Pero el aprendizaje por refuerzo profundo no está diseñado para resolver la forma epígrafa de un problema de optimización, por lo que no pudimos simplemente enchufarlo en nuestro problema. Tuvimos que derivar las expresiones matemáticas que funcionan para nuestro sistema. Una vez que tuvimos esas nuevas derivaciones, las combinamos con algunos trucos de ingeniería existentes utilizados por otros métodos”, dice So.

No hay puntos para el segundo lugar

Para probar su enfoque, diseñaron varios experimentos de control con diferentes condiciones iniciales. Por ejemplo, en algunas simulaciones, el agente autónomo necesita alcanzar y mantenerse dentro de una región objetivo mientras realiza maniobras drásticas para evitar obstáculos que tienen un curso de colisión con él.

Al comparar su enfoque con varios puntos de referencia, su enfoque fue el único que pudo estabilizar todas las trayectorias mientras mantenía la seguridad. Para llevar su método aún más lejos, lo utilizaron para volar un avión a reacción simulado en un escenario que uno podría ver en una película de “Top Gun”. El jet tuvo que estabilizarse en un objetivo cerca del suelo mientras mantenía una altitud muy baja y permanecía dentro de un corredor de vuelo estrecho.

Este modelo de jet simulado fue de código abierto en 2018 y había sido diseñado por expertos en control de vuelo como un desafío de prueba. ¿Podrían los investigadores crear un escenario en el que su controlador no pudiera volar? Pero el modelo era tan complicado que era difícil trabajar con él, y aún no podía manejar escenarios complejos, dice Fan.

El controlador de los investigadores del MIT pudo evitar que el jet se estrellara o se detuviera mientras se estabilizaba en el objetivo mucho mejor que cualquiera de los puntos de referencia.

En el futuro, esta técnica podría ser un punto de partida para diseñar controladores para robots altamente dinámicos que deben cumplir con requisitos de seguridad y estabilidad, como drones de entrega autónomos. O podría implementarse como parte de un sistema más grande. Quizás el algoritmo solo se active cuando un automóvil derrapa en una carretera nevada para ayudar al conductor a navegar de manera segura de regreso a una trayectoria estable.

Navegar por escenarios extremos que un ser humano no podría manejar es donde realmente brilla su enfoque, agrega So.

“Creemos que un objetivo al que debemos aspirar como campo es darle al aprendizaje por refuerzo las garantías de seguridad y estabilidad que necesitaremos para brindarnos la seguridad cuando implementemos estos controladores en sistemas críticos. Creemos que este es un primer paso prometedor hacia la consecución de ese objetivo “, dice.

Mirando hacia el futuro, los investigadores quieren mejorar su técnica para que sea mejor para tener en cuenta la incertidumbre al resolver la optimización. También quieren investigar qué tan bien funciona el algoritmo cuando se implementa en hardware, ya que habrá desajustes entre la dinámica del modelo y las del mundo real.

“El equipo del profesor Fan ha mejorado el rendimiento del aprendizaje por refuerzo para sistemas dinámicos donde la seguridad es importante. En lugar de simplemente alcanzar un objetivo, crean controladores que aseguran que el sistema pueda llegar a su objetivo de manera segura y permanecer allí indefinidamente”, dice Stanley Bak, profesor asistente del Departamento de Ciencias de la Computación de la Universidad de Stony Brook, quien no estuvo involucrado en esta investigación. “Su formulación mejorada permite la generación exitosa de controladores seguros para escenarios complejos, incluido un modelo de aeronave a reacción no lineal de 17 estados diseñado en parte por investigadores del Laboratorio de Investigación de la Fuerza Aérea (AFRL), que incorpora ecuaciones diferenciales no lineales con tablas de elevación y arrastre”.

El trabajo está financiado, en parte, por el Laboratorio Lincoln del MIT bajo el programa Safety in Aerobatic Flight Regimes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

    Discover more

    Inteligencia Artificial

    Mejora la predicción de datos tabulares con el modelo de lenguaje grande a través de la API de OpenAI

    Estos días, los grandes modelos de lenguaje y las aplicaciones o herramientas están en todas partes en las noticias y...

    Inteligencia Artificial

    Cuando abordar temas complejos, el primer paso es el más difícil

    Ser principiante no es un estado finito que atraviesas una vez y dejas atrás para siempre. Mientras te comprometas a ...

    Inteligencia Artificial

    Este artículo sobre IA revela Cómo los modelos de lenguaje grandes se comparan con los motores de búsqueda en eficiencia de verificación de hechos

    Investigadores de diferentes universidades comparan la eficacia de los modelos de lenguaje (LLMs) y los motores de bú...

    Inteligencia Artificial

    NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

    NVIDIA DGX Cloud — que ofrece herramientas que pueden convertir casi cualquier empresa en una empresa de IA — ahora e...