Investigadores de inteligencia artificial de Salesforce presentan OVIS sin máscaras un generador de máscaras de segmentación de instancia de vocabulario abierto.

Salesforce's AI researchers present OVIS, an open vocabulary instance segmentation mask generator without masks.

La segmentación de instancias se refiere a la tarea de visión por computadora de identificar y diferenciar múltiples objetos que pertenecen a la misma clase dentro de una imagen tratándolos como entidades distintas. En los últimos años, ha habido un aumento significativo en el número de técnicas de segmentación de instancias debido a los rápidos avances en técnicas de aprendizaje profundo. Por ejemplo, se utilizan redes neuronales convolucionales (CNN) y otras arquitecturas progresivas como Mask R-CNN para la segmentación de instancias. La característica dominante de tales técnicas es que combinan capacidades de detección de objetos con segmentación de píxeles para identificar objetos y generar máscaras precisas para cada instancia dentro de una imagen, lo que lleva a una mejor comprensión de la imagen completa.

Sin embargo, existe una cierta desventaja en los modelos de detección existentes en cuanto al número de categorías base que pueden identificar. Pruebas anteriores han indicado que si un modelo de detección se entrena en el conjunto de datos COCO, se puede lograr su capacidad para detectar aproximadamente 80 categorías. Sin embargo, cualquier categoría adicional requeriría la intervención humana, lo cual es laborioso y consume tiempo. Para contrarrestar esto, existen métodos de Vocabulario Abierto (OV) que aprovechan pares de imágenes y subtítulos y modelos de lenguaje de visión para aprender nuevas categorías. Sin embargo, existen grandes diferencias en la supervisión cuando se trata de aprender de categorías base y novedosas. Esto a menudo conduce al sobreajuste en las categorías base y una mala generalización a las nuevas. Como resultado, existe una fuerte necesidad de una metodología que pueda mejorar estos métodos de detección para detectar nuevas categorías sin mucha intervención humana. Esto haría que los modelos fueran más prácticos y escalables para aplicaciones del mundo real.

Para abordar este problema, los investigadores de Salesforce AI han ideado un método donde se generan anotaciones de cuadro delimitador y máscara de instancia a partir de un par de imagen y subtítulo. Su método propuesto, el pipeline OVIS sin máscara, aprovecha la supervisión débil utilizando anotaciones de pseudomáscara derivadas de un modelo de lenguaje de visión para aprender categorías base y novedosas. Este enfoque elimina la necesidad de una anotación humana laboriosa y aborda el problema del sobreajuste. Las evaluaciones experimentales han demostrado que su metodología supera a los modelos de segmentación de instancias de vocabulario abierto de última generación. Además, su investigación ha sido reconocida y aceptada en la prestigiosa Conferencia de Visión por Computadora y Reconocimiento de Patrones en 2023.

Los investigadores de Salesforce han ideado un pipeline que consta de dos etapas principales: generación de pseudomáscaras y segmentación de instancias de vocabulario abierto. En la primera etapa, se crea una anotación de pseudomáscara para el objeto de interés a partir del par de imagen y subtítulo. Al utilizar un modelo de lenguaje de visión preentrenado, el nombre del objeto sirve como indicación de texto para localizar el objeto. Además, se realiza un proceso de enmascaramiento iterativo con GradCAM para refinar la pseudomáscara y asegurarse de que cubre todo el objeto con precisión. En la segunda etapa, se entrena una red de segmentación débilmente supervisada (WSS) para seleccionar la propuesta con la mayor superposición con el mapa de activación GradCAM utilizando cuadros delimitadores previamente generados. Finalmente, se entrena un modelo Mask-RCNN utilizando las pseudoanotaciones generadas, completando el pipeline.

El pipeline, por lo tanto, elimina la necesidad de cualquier intervención humana aprovechando el poder de los modelos de lenguaje de visión preentrenados y los modelos débilmente supervisados para generar automáticamente anotaciones de pseudomáscara, que se pueden utilizar como datos de entrenamiento adicionales. Para evaluar su pipeline, los investigadores llevaron a cabo varios experimentos en conjuntos de datos buscados como los conjuntos de datos MS-COCO y OpenImages. Los resultados demostraron que el uso de pseudoanotaciones en su enfoque lleva a un rendimiento excepcional en tareas de detección y segmentación de instancias, superando a otros métodos que dependen de anotaciones humanas. El enfoque guiado de visión y lenguaje único en su tipo para la generación de pseudomáscaras, ideado por los investigadores de Salesforce, allana el camino para originar modelos de segmentación de instancias más avanzados y precisos que eliminen la necesidad de anotadores humanos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los robots de IA podrían desempeñar un papel futuro como compañeros en hogares de cuidado

Los robots sociales impulsados por inteligencia artificial podrían ayudar a cuidar a los enfermos y ancianos en el fu...

Inteligencia Artificial

Investigadores de Microsoft y la Universidad Bautista de Hong Kong presentan WizardCoder Un Code Evol-Instruct Fine-Tuned Code LLM.

Los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) han atraído recientemente mucho interés y han logrado...

Inteligencia Artificial

Descifrando los misterios de los modelos de lenguaje grandes un análisis detallado de las funciones de influencia y su escalabilidad

Los modelos de lenguaje grandes (LLMs) han acelerado el desarrollo en varios campos del mundo real y han demostrado h...

Inteligencia Artificial

NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

NVIDIA DGX Cloud — que ofrece herramientas que pueden convertir casi cualquier empresa en una empresa de IA — ahora e...