Jugando ¿Dónde está Wally? en 3D OpenMask3D es un modelo de IA que puede segmentar instancias en 3D con consultas de vocabulario abierto.

'Jugando a ¿Dónde está Wally? en 3D, OpenMask3D es un modelo de IA que segmenta instancias en 3D utilizando consultas de vocabulario abierto.'

La segmentación de imágenes ha avanzado mucho en la última década, gracias al avance de las redes neuronales. Ahora es posible segmentar múltiples objetos en escenas complejas en cuestión de milisegundos, y los resultados son bastante precisos. Por otro lado, tenemos otra tarea en nuestras manos para el 3D, la segmentación de instancias, y aún nos falta mucho para alcanzar el rendimiento de la segmentación de imágenes 2D.

La segmentación de instancias 3D ha surgido como una tarea crítica con aplicaciones significativas en campos como la robótica y la realidad aumentada. El objetivo de la segmentación de instancias 3D es predecir máscaras de instancias de objetos y sus categorías correspondientes en una escena 3D. Si bien se ha logrado un notable progreso en este campo, los métodos existentes operan predominantemente bajo un paradigma de conjunto cerrado, donde el conjunto de categorías de objetos es limitado y está estrechamente vinculado a los conjuntos de datos utilizados para el entrenamiento.

Esta limitación plantea dos problemas fundamentales. En primer lugar, los enfoques de vocabulario cerrado tienen dificultades para comprender escenas más allá de las categorías de objetos encontradas durante el entrenamiento, lo que puede dificultar el reconocimiento de objetos nuevos o clasificarlos incorrectamente. En segundo lugar, estos métodos están inherentemente limitados en su capacidad para manejar consultas de forma libre, lo que dificulta su eficacia en escenarios que requieren comprender y actuar sobre propiedades o descripciones específicas de objetos.

Se han propuesto enfoques de vocabulario abierto para abordar estos desafíos. Estos enfoques pueden manejar consultas de forma libre y permitir el aprendizaje sin ejemplos de categorías de objetos que no están presentes en los datos de entrenamiento. Al adoptar un enfoque más flexible y amplio, los métodos de vocabulario abierto ofrecen varias ventajas en tareas como la comprensión de escenas, la robótica, la realidad aumentada y la búsqueda visual 3D.

Habilitar la segmentación de instancias 3D con vocabulario abierto puede mejorar significativamente la flexibilidad y practicidad de las aplicaciones que dependen de la comprensión y manipulación de escenas 3D complejas. Conozcamos a OpenMask3D, el prometedor modelo de segmentación de instancias 3D.

OpenMask3D puede segmentar instancias de objetos. Fuente: https://arxiv.org/pdf/2306.13631.pdf

OpenMask3D tiene como objetivo superar las limitaciones de los enfoques de vocabulario cerrado. Aborda la tarea de predecir máscaras de instancias de objetos 3D y calcular representaciones de características de máscara mientras razona más allá de un conjunto predefinido de conceptos. OpenMask3D opera en secuencias RGB-D y aprovecha la geometría 3D reconstruida correspondiente para lograr sus objetivos.

Utiliza una tubería de dos etapas que consiste en una cabeza de propuesta de máscara agnóstica de clase y un módulo de agregación de características de máscara. OpenMask3D identifica cuadros donde las instancias son obvias y extrae características CLIP de las mejores imágenes de cada máscara. La representación de características resultante se agrega en varias vistas y se asocia con cada máscara de instancia 3D. Este enfoque de cálculo de características basado en instancias dota a OpenMask3D con la capacidad de recuperar máscaras de instancias de objetos en función de su similitud con cualquier consulta de texto dada, lo que permite la segmentación de instancias 3D con vocabulario abierto y superando las limitaciones de los paradigmas de vocabulario cerrado.

Descripción general de OpenMask3D. Fuente: https://arxiv.org/pdf/2306.13631.pdf

Al calcular una característica de máscara por instancia de objeto, OpenMask3D puede recuperar máscaras de instancias de objetos en función de la similitud con cualquier consulta dada, lo que le permite realizar una segmentación de instancias 3D con vocabulario abierto. Además, OpenMask3D preserva mejor la información sobre los objetos nuevos y de cola larga que sus contrapartes entrenadas o ajustadas. También supera las limitaciones de un paradigma de vocabulario cerrado, permitiendo la segmentación de instancias de objetos en función de consultas de forma libre relacionadas con propiedades de objetos como semántica, geometría, posibilidades y propiedades de los materiales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

En el Festival de Wagner, la nueva tecnología revela una brecha de liderazgo

El uso de la realidad aumentada en una producción de la ópera Parsifal que inaugura el Festival de Bayreuth de Aleman...

Inteligencia Artificial

Investigadores de UCSC y TU Munich proponen RECAST un nuevo modelo basado en el aprendizaje profundo para predecir réplicas

La Inteligencia Artificial encuentra su camino en casi todos los campos posibles. Ha habido una amplia investigación ...

Inteligencia Artificial

Decodificando emociones Revelando sentimientos y estados mentales con EmoTX, un novedoso marco de inteligencia artificial impulsado por Transformer

Las películas son una de las expresiones artísticas más importantes de historias y sentimientos. Por ejemplo, en R...

Inteligencia Artificial

Conoce los Modelos de Difusión Compartimentados (CDM) Un enfoque de IA para entrenar diferentes modelos de difusión o indicaciones en distintas fuentes de datos.

Con los avances recientes en tecnología y en el campo de la Inteligencia Artificial, ha habido mucho progreso y mejor...

Inteligencia Artificial

El jurado encuentra que la tienda de aplicaciones de Google violó las leyes antimonopolio

En una decisión histórica, Epic Games ganó su demanda contra el gigante de búsqueda.