Entrenando máquinas para aprender más como lo hacen los humanos

Training machines to learn more like humans.

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a representar el mundo visual de una manera más estable y predecible.

MIT researchers discovered that a specific training technique can enable certain types of computer vision models to learn more stable, predictable visual representations, which are more similar to those humans learn using a biological property known as perceptual straightening.

Imagina sentarte en un banco del parque, viendo pasar a alguien. Aunque la escena puede cambiar constantemente a medida que la persona camina, el cerebro humano puede transformar esa información visual dinámica en una representación más estable con el tiempo. Esta capacidad, conocida como enderezamiento perceptual, nos ayuda a predecir la trayectoria de la persona que camina.

A diferencia de los humanos, los modelos de visión por computadora no suelen exhibir enderezamiento perceptual, por lo que aprenden a representar la información visual de una manera altamente impredecible. Pero si los modelos de aprendizaje automático tuvieran esta capacidad, podrían permitirles estimar mejor cómo se moverán los objetos o las personas.

Investigadores del MIT han descubierto que un método de entrenamiento específico puede ayudar a los modelos de visión por computadora a aprender representaciones más perceptualmente rectas, como lo hacen los humanos. El entrenamiento implica mostrarle al modelo de aprendizaje automático millones de ejemplos para que pueda aprender una tarea.

Los investigadores descubrieron que el entrenamiento de los modelos de visión por computadora utilizando una técnica llamada entrenamiento adversario, que los hace menos reactivos a los pequeños errores agregados a las imágenes, mejora el enderezamiento perceptual de los modelos.

El equipo también descubrió que el enderezamiento perceptual se ve afectado por la tarea para la cual se entrena un modelo. Los modelos entrenados para realizar tareas abstractas, como clasificar imágenes, aprenden representaciones más perceptualmente rectas que aquellos entrenados para realizar tareas más detalladas, como asignar cada píxel de una imagen a una categoría.

Por ejemplo, los nodos dentro del modelo tienen activaciones internas que representan “perro”, lo que permite al modelo detectar un perro cuando ve cualquier imagen de un perro. Las representaciones perceptualmente rectas retienen una representación “perro” más estable cuando hay pequeños cambios en la imagen. Esto los hace más robustos.

Al obtener una mejor comprensión del enderezamiento perceptual en la visión por computadora, los investigadores esperan descubrir ideas que puedan ayudarlos a desarrollar modelos que hagan predicciones más precisas. Por ejemplo, esta propiedad podría mejorar la seguridad de los vehículos autónomos que utilizan modelos de visión por computadora para predecir las trayectorias de peatones, ciclistas y otros vehículos.

“Una de las conclusiones de aquí es que tomar inspiración de sistemas biológicos, como la visión humana, puede darte información sobre por qué ciertas cosas funcionan de la manera en que lo hacen y también inspirar ideas para mejorar las redes neuronales”, dice Vasha DuTell, un postdoctorado del MIT y coautor de un artículo que explora el enderezamiento perceptual en la visión por computadora.

Además de DuTell, los autores del artículo son Anne Harrington, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS); Ayush Tewari, un postdoc; Mark Hamilton, un estudiante de posgrado; Simon Stent, gerente de investigación en Woven Planet; Ruth Rosenholtz, científica principal de investigación en el Departamento de Ciencias Cognitivas del Cerebro y un miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y William T. Freeman, profesor de Ingeniería Eléctrica y Ciencias de la Computación y miembro de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Estudiando el enderezamiento

Después de leer un artículo de 2019 de un equipo de investigadores de la Universidad de Nueva York sobre el enderezamiento perceptual en humanos, DuTell, Harrington y sus colegas se preguntaron si esa propiedad también podría ser útil en modelos de visión por computadora.

Se propusieron determinar si diferentes tipos de modelos de visión por computadora enderezan las representaciones visuales que aprenden. Alimentaron cada modelo con cuadros de un video y luego examinaron la representación en diferentes etapas de su proceso de aprendizaje.

Si la representación del modelo cambia de manera predecible a lo largo de los cuadros del video, ese modelo está enderezando. Al final, su representación de salida debería ser más estable que la representación de entrada.

“Puedes pensar en la representación como una línea, que comienza muy curva. Un modelo que endereza puede tomar esa línea curva del video y enderezarla a través de sus pasos de procesamiento”, explica DuTell.

La mayoría de los modelos que probaron no enderezaron. De los pocos que lo hicieron, aquellos que enderezaron de manera más efectiva habían sido entrenados para tareas de clasificación utilizando la técnica conocida como entrenamiento adversario.

El entrenamiento adversario implica modificar sutilmente las imágenes cambiando ligeramente cada píxel. Si bien un humano no notaría la diferencia, estos cambios menores pueden engañar a una máquina para que clasifique incorrectamente la imagen. El entrenamiento adversario hace que el modelo sea más robusto, por lo que no será engañado por estas manipulaciones.

Porque el entrenamiento adversario enseña al modelo a ser menos reactivo a los pequeños cambios en las imágenes, esto ayuda a aprender una representación que es más predecible con el tiempo, explica Harrington.

“La gente ya había tenido esta idea de que el entrenamiento adversario podría ayudarte a que tu modelo se parezca más a un humano, y fue interesante ver que esto se trasladó a otra propiedad que no había sido probada antes”, dice.

Pero los investigadores encontraron que los modelos entrenados adversariamente sólo aprenden a enderezarse cuando son entrenados para tareas amplias, como clasificar imágenes completas en categorías. Los modelos encargados de la segmentación – etiquetar cada píxel de una imagen como una determinada clase – no se enderezaron, incluso cuando fueron entrenados adversariamente.

Clasificación consistente

Los investigadores probaron estos modelos de clasificación de imágenes mostrándoles videos. Descubrieron que los modelos que aprendieron representaciones perceptualmente más rectas tendían a clasificar correctamente los objetos en los videos de manera más consistente.

“Para mí, es asombroso que estos modelos entrenados adversariamente, que nunca han visto un video y nunca han sido entrenados en datos temporales, todavía muestren cierta cantidad de enderezamiento”, dice DuTell.

Los investigadores no saben exactamente qué es lo que permite a un modelo de visión por computadora enderezarse durante el proceso de entrenamiento adversario, pero sus resultados sugieren que esquemas de entrenamiento más fuertes hacen que los modelos se enderecen más, explica ella.

A partir de este trabajo, los investigadores quieren utilizar lo que han aprendido para crear nuevos esquemas de entrenamiento que den explícitamente a un modelo esta propiedad. También quieren profundizar en el entrenamiento adversario para entender por qué este proceso ayuda a que un modelo se enderece.

“Desde un punto de vista biológico, el entrenamiento adversario no tiene necesariamente sentido. No es así como los humanos entendemos el mundo. Todavía hay muchas preguntas sobre por qué este proceso de entrenamiento parece ayudar a que los modelos actúen más como los humanos”, dice Harrington.

“Entender las representaciones aprendidas por las redes neuronales profundas es fundamental para mejorar propiedades como la robustez y la generalización”, dice Bill Lotter, profesor asistente en el Instituto del Cáncer Dana-Farber y la Escuela de Medicina de Harvard, que no estuvo involucrado en esta investigación. “Harrington y otros realizan una extensa evaluación de cómo cambian las representaciones de los modelos de visión por computadora con el tiempo al procesar videos naturales, mostrando que la curvatura de estas trayectorias varía ampliamente dependiendo de la arquitectura del modelo, las propiedades de entrenamiento y la tarea. Estos hallazgos pueden informar el desarrollo de modelos mejorados y también ofrecer información sobre el procesamiento visual biológico”.

“El artículo confirma que enderezar videos naturales es una propiedad bastante única que muestra el sistema visual humano. Sólo las redes entrenadas adversariamente lo muestran, lo que proporciona una conexión interesante con otra firma de la percepción humana: su robustez a varias transformaciones de imágenes, naturales o artificiales”, dice Olivier Hénaff, científico investigador de DeepMind, que no estuvo involucrado en esta investigación. “El hecho de que incluso los modelos de segmentación de escenas entrenados adversariamente no enderecen sus entradas plantea preguntas importantes para trabajos futuros: ¿Los humanos analizan las escenas naturales de la misma manera que los modelos de visión por computadora? ¿Cómo representar y predecir las trayectorias de los objetos en movimiento mientras se es sensible a su detalle espacial? Al conectar la hipótesis del enderezamiento con otros aspectos del comportamiento visual, el artículo sienta las bases para teorías más unificadas de la percepción”.

La investigación está financiada, en parte, por el Instituto de Investigación Toyota, la Beca METEOR del MIT CSAIL, la Fundación Nacional de Ciencia, el Laboratorio de Investigación de la Fuerza Aérea de los EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de los EE. UU.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas

La detección de objetos y la segmentación de imágenes son tareas cruciales en la visión por computadora e inteligenci...

Inteligencia Artificial

xAI de Elon Musk entrenado con el Feed de Twitter

Elon Musk, el visionario detrás de empresas como Tesla y SpaceX, ha vuelto a centrar su atención en el campo de la in...

Inteligencia Artificial

Destaques y Contribuciones de NeurIPS 2023

La conferencia de Sistemas de Procesamiento de Información Neuronal, NeurIPS 2023, se erige como la cima de la búsque...

Inteligencia Artificial

Construir un Equipo Estratégico de AI Ahora es Fácil con AutoGen

Introducción En un mundo donde la frontera digital no conoce límites, AutoGen emerge como el arquitecto de un paradig...

Inteligencia Artificial

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Todo sobre los grandes modelos de lenguaje es grande: los modelos gigantes se entrenan en conjuntos de datos masivos ...