Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos

Generación de instrucciones para etiquetar conjuntos de datos como un anotador en profundidad

Todos estamos asombrados por el avance que hemos visto en los modelos de IA recientemente. Hemos visto cómo los modelos generativos se revolucionaron al pasar de un algoritmo de generación de imágenes extravagante hasta el punto en que se volvió difícil diferenciar el contenido generado por IA de los reales.

Todos estos avances son posibles gracias a dos puntos principales. Las estructuras avanzadas de redes neuronales, y quizás más importante, la disponibilidad de conjuntos de datos a gran escala.

Tomemos la difusión estable, por ejemplo. Los modelos de difusión han estado con nosotros durante algún tiempo, pero nunca los vimos lograr ese tipo de resultados antes. Lo que hizo que la difusión estable fuera tan poderosa fue el conjunto de datos a gran escala en el que fue entrenada. Cuando decimos grande, nos referimos a realmente grande. Estamos hablando de más de 5 mil millones de muestras de datos aquí.

Preparar un conjunto de datos así es obviamente una tarea muy exigente. Requiere una cuidadosa recopilación de puntos de datos representativos y etiquetado supervisado. Para la difusión estable, esto podría haber sido automatizado hasta cierto punto. Pero el elemento humano siempre está presente. El proceso de etiquetado desempeña un papel crucial en el aprendizaje supervisado, especialmente en la visión por computadora, ya que puede hacer o deshacer todo el proceso.

En el campo de la visión por computadora, los conjuntos de datos a gran escala sirven como el pilar para numerosas tareas y avances. Sin embargo, la evaluación y utilización de estos conjuntos de datos a menudo dependen de la calidad y disponibilidad de las instrucciones de etiquetado (LIs, por sus siglas en inglés) que definen las membresías de clase y brindan orientación a los anotadores. Desafortunadamente, las LIs accesibles públicamente rara vez se publican, lo que conduce a una falta de transparencia y reproducibilidad en la investigación de visión por computadora.

Esta falta de transparencia tiene implicaciones significativas. Esta falta de supervisión tiene implicaciones significativas, incluidos desafíos en la evaluación del modelo, abordar sesgos en las anotaciones y comprender las limitaciones impuestas por las políticas de instrucción.

Tenemos nueva investigación en nuestras manos que se ha realizado para abordar esta brecha. Es hora de conocer la tarea de Generación de Instrucciones de Etiquetado (LIG, por sus siglas en inglés).

LIG tiene como objetivo generar instrucciones de etiquetado (LIs) informativas y accesibles para conjuntos de datos sin instrucciones disponibles públicamente. Aprovechando modelos de visión y lenguaje a gran escala y proponiendo el marco Proxy Dataset Curator (PDC), la investigación busca generar instrucciones de etiquetado de alta calidad, mejorando así la transparencia y utilidad de los conjuntos de datos de referencia para la comunidad de visión por computadora.

Resumen de LIG. Fuente: https://arxiv.org/pdf/2306.14035.pdf

LIG tiene como objetivo generar un conjunto de instrucciones que no solo definan las membresías de clase, sino que también proporcionen descripciones detalladas de los límites de clase, sinónimos, atributos y casos especiales. Estas instrucciones consisten en descripciones de texto y ejemplos visuales, ofreciendo un conjunto completo e informativo de instrucciones para etiquetar conjuntos de datos.

Para abordar el desafío de generar LIs, el marco propuesto aprovecha modelos de visión y lenguaje a gran escala como CLIP, ALIGN y Florence. Estos modelos proporcionan representaciones poderosas de texto e imágenes que permiten un rendimiento robusto en diversas tareas. El marco Proxy Dataset Curator (PDC) se introduce como una solución computacionalmente eficiente para LIG. Aprovecha VLMs preentrenados para recorrer rápidamente el conjunto de datos y recuperar los mejores pares de texto-imagen representativos de cada clase. Mediante la fusión multimodal de representaciones de texto e imagen en una sola consulta, el marco PDC demuestra su capacidad para generar instrucciones de etiquetado de alta calidad e informativas sin necesidad de una extensa curación manual.

Aunque el marco propuesto muestra promesa, existen varias limitaciones. Por ejemplo, el enfoque actual se centra en generar pares de texto e imagen, y no se propone nada para instrucciones multimodales más expresivas. Las instrucciones de texto generadas también pueden ser menos matizadas en comparación con las instrucciones generadas por humanos, pero se espera que los avances en los modelos de lenguaje y visión aborden esta limitación. Además, el marco actualmente no incluye ejemplos negativos, pero las versiones futuras podrían incorporarlos para proporcionar un conjunto de instrucciones más completo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT se adentra en el lado robótico la última maravilla mecánica de Boston Dynamics ahora responde verbalmente

En un desarrollo innovador, la empresa de ingeniería Boston Dynamics ha integrado ChatGPT, un sofisticado modelo de l...

Noticias de Inteligencia Artificial

Traje de Realidad Virtual podría ayudarte a 'sentir' cosas en el Metaverso.

Los ingenieros en la ETH Zurich de Suiza construyeron un traje táctil de cuerpo completo para amplificar las experien...

Aprendizaje Automático

DeepMind presenta AlphaDev un agente de aprendizaje por refuerzo profundo que descubre algoritmos de clasificación más rápidos desde cero.

Desde la Inteligencia Artificial y el Análisis de Datos hasta la Criptografía y la Optimización, los algoritmos juega...