Usando reflexiones para ver el mundo desde nuevos puntos de vista.

Using reflections to see the world from new perspectives.

Un nuevo sistema de visión por computadora convierte cualquier objeto brillante en una especie de cámara, lo que permite a un observador ver alrededor de las esquinas o más allá de las obstrucciones.

Researchers from MIT and Rice University have created a computer vision technique that leverages reflections to image the world by using them to turn glossy objects into “cameras,” enabling a user to see the world as if they were looking through the “lenses” of everyday objects like a ceramic coffee mug or a metallic paper weight.   

Mientras un coche circula por una estrecha calle de la ciudad, los reflejos en la pintura brillante o en los espejos laterales de los vehículos estacionados pueden ayudar al conductor a vislumbrar cosas que, de otro modo, estarían ocultas a la vista, como un niño jugando en la acera detrás de los coches estacionados.

Basándose en esta idea, investigadores del MIT y de la Universidad de Rice han creado una técnica de visión por computadora que aprovecha los reflejos para imaginar el mundo. Su método utiliza los reflejos para convertir objetos brillantes en “cámaras”, permitiendo a un usuario ver el mundo como si estuviera mirando a través de las “lentes” de objetos cotidianos como una taza de café de cerámica o un peso de papel metálico.   

Utilizando imágenes de un objeto tomadas desde diferentes ángulos, la técnica convierte la superficie de ese objeto en un sensor virtual que captura los reflejos. El sistema de inteligencia artificial mapea estos reflejos de manera que le permite estimar la profundidad en la escena y capturar vistas novedosas que solo serían visibles desde la perspectiva del objeto. Se podría utilizar esta técnica para ver alrededor de las esquinas o más allá de los objetos que bloquean la vista del observador.

Este método podría ser especialmente útil en los vehículos autónomos. Por ejemplo, podría permitir que un coche autónomo utilice los reflejos de los objetos que pasa, como postes de luz o edificios, para ver alrededor de un camión estacionado.

“Hemos demostrado que cualquier superficie se puede convertir en un sensor con esta formulación que convierte objetos en píxeles virtuales y sensores virtuales. Esto se puede aplicar en muchas áreas diferentes”, dice Kushagra Tiwary, estudiante de posgrado en el Grupo de Cultura de Cámaras del Laboratorio de Medios y coautor de un artículo sobre esta investigación.

Tiwary es acompañado en el artículo por el coautor principal Akshat Dave, un estudiante de posgrado en la Universidad de Rice; Nikhil Behari, un asociado de apoyo a la investigación del MIT; Tzofi Klinghoffer, un estudiante de posgrado del MIT; Ashok Veeraraghavan, profesor de ingeniería eléctrica y informática en la Universidad de Rice; y el autor principal Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Grupo de Cultura de Cámaras en el MIT. La investigación se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones.

Reflexionando sobre los reflejos

Los héroes de los programas de televisión sobre crimen a menudo “amplían y mejoran” las imágenes de vigilancia para capturar reflejos, quizás los que se ven en las gafas de sol de un sospechoso, que les ayudan a resolver un crimen. 

“En la vida real, aprovechar estos reflejos no es tan fácil como simplemente pulsar un botón de mejora. Obtener información útil de estos reflejos es bastante difícil porque nos dan una vista distorsionada del mundo”, dice Dave.

Esta distorsión depende de la forma del objeto y del mundo que refleja ese objeto, de los cuales los investigadores pueden tener información incompleta. Además, el objeto brillante puede tener su propio color y textura que se mezcla con los reflejos. Además, los reflejos son proyecciones bidimensionales de un mundo tridimensional, lo que hace difícil juzgar la profundidad en escenas reflejadas.

Los investigadores encontraron una manera de superar estos desafíos. Su técnica, conocida como ORCa (que significa que los objetos son cámaras de campo de radiación), funciona en tres pasos. En primer lugar, toman fotografías de un objeto desde muchos puntos de vista, capturando múltiples reflejos en el objeto brillante.

Luego, para cada imagen de la cámara real, ORCa utiliza el aprendizaje automático para convertir la superficie del objeto en un sensor virtual que captura la luz y los reflejos que golpean cada píxel virtual en la superficie del objeto. Finalmente, el sistema utiliza píxeles virtuales en la superficie del objeto para modelar el entorno 3D desde el punto de vista del objeto.

Atrapando rayos

La imagen del objeto desde muchos ángulos permite que ORCa capture reflejos de múltiples vistas, que el sistema utiliza para estimar la profundidad entre el objeto brillante y otros objetos en la escena, además de estimar la forma del objeto brillante. ORCa modela la escena como un campo de radiación 5D, que captura información adicional sobre la intensidad y la dirección de los rayos de luz que emanan y golpean cada punto en la escena.

La información adicional contenida en este campo de radiación 5D también ayuda a ORCa a estimar con precisión la profundidad. Y debido a que la escena se representa como un campo de radiación 5D, en lugar de una imagen 2D, el usuario puede ver características ocultas que de otro modo estarían bloqueadas por esquinas u obstrucciones.

De hecho, una vez que ORCa ha capturado este campo de radiación 5D, el usuario puede poner una cámara virtual en cualquier lugar de la escena y sintetizar lo que esa cámara vería, explica Dave. El usuario también podría insertar objetos virtuales en el entorno o cambiar la apariencia de un objeto, como de cerámica a metálico.

“Fue especialmente desafiante pasar de una imagen 2D a un entorno de 5D. Hay que asegurarse de que el mapeo funcione y sea físicamente preciso, por lo que se basa en cómo la luz viaja en el espacio y cómo interactúa con el entorno. Pasamos mucho tiempo pensando en cómo podemos modelar una superficie”, dice Tiwary.

Estimaciones precisas

Los investigadores evaluaron su técnica comparándola con otros métodos que modelan reflexiones, que es una tarea ligeramente diferente a la que realiza ORCa. Su método funcionó bien al separar el verdadero color de un objeto de las reflexiones, y superó a los puntos de referencia al extraer una geometría y texturas de objetos más precisas.

Compararon las estimaciones de profundidad del sistema con datos de verdad simulados sobre la distancia real entre objetos en la escena y encontraron que las predicciones de ORCa eran confiables.

“Consistentemente, con ORCa, no solo estima el entorno con precisión como una imagen de 5D, sino que para lograrlo, en los pasos intermedios, también hace un buen trabajo al estimar la forma del objeto y separar las reflexiones de la textura del objeto”, dice Dave.

Basándose en esta prueba de concepto, los investigadores quieren aplicar esta técnica a la imágenes de drones. ORCa podría utilizar las reflexiones tenues de los objetos que un dron sobrevuela para reconstruir una escena desde el suelo. También quieren mejorar ORCa para que pueda utilizar otras señales, como las sombras, para reconstruir información oculta o combinar reflexiones de dos objetos para crear nuevas partes de una escena.

“Estimar las reflexiones especulares es realmente importante para ver alrededor de las esquinas, y este es el siguiente paso natural para ver alrededor de las esquinas utilizando reflexiones tenues en la escena”, dice Raskar.

“Por lo general, los objetos brillantes son difíciles de manejar para los sistemas de visión. Este artículo es muy creativo porque convierte la debilidad duradera del brillo del objeto en una ventaja. Al explotar las reflexiones del entorno en un objeto brillante, el artículo no solo puede ver partes ocultas de la escena, sino también comprender cómo se ilumina la escena. Esto permite aplicaciones en la percepción 3D que incluyen, pero no se limitan a, la capacidad de componer objetos virtuales en escenas reales de manera que parezcan perfectamente integrados, incluso en condiciones de iluminación difíciles”, dice Achuta Kadambi, profesor asistente de ingeniería eléctrica e informática en la Universidad de California en Los Ángeles, quien no estuvo involucrado en este trabajo. “Una razón por la que otros no han podido utilizar objetos brillantes de esta manera es que la mayoría de los trabajos anteriores requieren superficies con geometría o textura conocida. Los autores han derivado una formulación nueva e intrigante que no requiere dicho conocimiento”.

La investigación fue apoyada, en parte, por la Agencia de Investigación de Proyectos Avanzados de Inteligencia y la Fundación Nacional de Ciencia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana

La inteligencia artificial (IA) ha alcanzado nuevas alturas, según una investigación realizada por la Universidad de ...

Inteligencia Artificial

Una guía completa para usar cadenas en Langchain

Introducción ¡Adéntrate en el mundo del procesamiento del lenguaje! En un ámbito en el que el lenguaje es un enlace e...

Inteligencia Artificial

Los robots reciben una mejora 'gripante' ¡AO-Grasp enseña a los bots el arte de no dejar caer tus cosas!

En los últimos años, los robots han encontrado un mayor uso en diversas industrias, desde la fabricación hasta la ate...

Aprendizaje Automático

Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demo...