¿Son útiles las leyendas sintéticas para el entrenamiento multimodal? Este artículo de IA demuestra la efectividad de las leyendas sintéticas en mejorar la calidad de las leyendas para el entrenamiento multimodal.

¿Las leyendas sintéticas son útiles para el entrenamiento multimodal? Este artículo de IA demuestra su efectividad en mejorar la calidad de las leyendas.

Los modelos multimodales son uno de los mayores avances en el campo de la Inteligencia Artificial. Estos modelos han sido diseñados para procesar y comprender datos de múltiples modalidades, ya sea visual, que incluye imágenes y videos, textual, que incluye lenguaje natural, o auditiva, es decir, habla y sonido. Estos modelos son capaces de combinar y analizar datos de estas diversas modalidades para llevar a cabo tareas complejas que requieren comprensión e inferencia en una variedad de tipos de datos. Dado que los modelos multimodales grandes se utilizan en tareas de visión, se ha demostrado que el preentrenamiento de dichos modelos en pares de imágenes y texto produce un alto rendimiento en varias tareas relacionadas con la visión.

Los investigadores han estado tratando de mejorar la utilidad de los datos web, como pares de imágenes y texto, para entrenar modelos multimodales grandes utilizados en tareas de visión, pero debido a varios factores, como pares de imágenes y texto mal alineados, fuentes de datos defectuosas y contenido de baja calidad, los datos en línea a menudo son ruidosos o poco informativos. Actualmente, los métodos existentes reducen el ruido en los datos, pero a menudo resulta en una pérdida de diversidad de datos. Para abordar esto, un equipo de investigadores ha presentado su enfoque que se centra en la calidad de los subtítulos como una fuente significativa de ruido en los datos obtenidos de la web.

El objetivo principal es explorar cómo los subtítulos generados pueden mejorar la utilidad de los pares de imágenes y texto con texto vago o poco informativo. Para ello, el equipo ha probado varias tácticas de mezcla, combinando subtítulos de sitios web sin procesar con subtítulos producidos por el modelo. El enfoque ha superado ampliamente la principal estrategia de filtrado sugerida por la referencia de rendimiento de DataComp. Utilizando un conjunto de candidatos de 128 millones de pares de imágenes y texto, la mejora en ImageNet es del 2%, y en 38 trabajos, la mejora promedio es del 4%. Su mejor método supera a las técnicas convencionales en tareas de recuperación en Flickr y MS-COCO, demostrando la viabilidad de su estrategia en situaciones del mundo real.

El equipo ha examinado la justificación detrás de por qué los subtítulos artificiales son una herramienta útil para la supervisión de texto. A través de sus pruebas de múltiples modelos de generación de subtítulos de imágenes, el equipo ha demostrado que la utilidad de los subtítulos que un modelo produce para el entrenamiento multimodal no siempre está determinada por su rendimiento en los puntos de referencia establecidos de generación de subtítulos de imágenes, como NoCaps CIDEr. Esto destaca la necesidad de evaluar los subtítulos generados, especialmente para actividades multimodales, en lugar de depender únicamente de los puntos de referencia convencionales de generación de subtítulos de imágenes.

El estudio ha utilizado el conjunto de datos de 1.28 mil millones de pares de imágenes y texto de DataComp para investigar la aplicación de subtítulos generados a mayor escala. Este experimento revela las limitaciones del texto sintético y enfatiza la creciente importancia de la curación de imágenes a la luz de la expansión de los datos de entrenamiento. Las ideas compartidas por el equipo son:

  1. Selección de un modelo de generación de subtítulos: Ajustar un modelo preentrenado para la generación de subtítulos de imágenes basado en puntos de referencia estándar puede no conducir a subtítulos efectivos para el entrenamiento multimodal. Las métricas sin referencia como CLIP-S reflejan mejor la calidad de los subtítulos generados.
  1. Combinación de subtítulos de múltiples fuentes: Se han explorado múltiples estrategias para filtrar y combinar subtítulos sin procesar y sintéticos, lo que resulta en mejoras de rendimiento en escalas pequeñas y grandes en el punto de referencia de DataComp.
  1. Efectividad de los subtítulos sintéticos: A nivel individual, los subtítulos sintéticos son menos ruidosos y contienen más información visual. Sin embargo, a nivel de población, carecen de diversidad en comparación con los subtítulos sin procesar.
  1. Escalabilidad de los beneficios de los subtítulos sintéticos: El mejor enfoque de filtrado varía según las diferentes escalas de datos. Experimentar con diferentes cantidades resalta las limitaciones de los subtítulos sintéticos, siendo el control de calidad de la imagen y la brecha de diversidad más críticos en regímenes de datos más grandes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Optimiza el costo de implementación de los modelos base de Amazon SageMaker JumpStart con los puntos finales asincrónicos de Amazon SageMaker

En esta publicación, nos enfocamos en estas situaciones y resolvemos el problema de arriesgar altos costos al impleme...

Inteligencia Artificial

Conoce Jupyter AI Desatando el poder de la inteligencia artificial en los cuadernos de Jupyter

En un avance innovador en inteligencia artificial y codificación, Project Jupyter presenta una adición revolucionaria...

Inteligencia Artificial

Mejorando el procesamiento inteligente de documentos de AWS con IA generativa

La clasificación, extracción y análisis de datos puede ser un desafío para las organizaciones que manejan volúmenes d...

Inteligencia Artificial

LMSYS ORG presenta Chatbot Arena una plataforma de referencia de LLM con batallas anónimas y aleatorias realizadas por la multitud

Muchos proyectos de código abierto han desarrollado modelos lingüísticos completos que se pueden entrenar para llevar...