Investigadores de EPFL y Apple hacen de código abierto 4M Un marco de inteligencia artificial para entrenar modelos de base multimodales en decenas de modalidades y tareas

EPFL y Apple colaboran en el desarrollo de 4M un marco de inteligencia artificial de código abierto para entrenar modelos multimodales en diversas tareas y modalidades

El entrenamiento de modelos de lenguaje grandes (LLMs) que puedan manejar naturalmente varias tareas sin ajustes específicos de cada tarea se ha vuelto más popular en el procesamiento del lenguaje natural (NLP). Aún se necesita crear modelos igualmente flexibles y escalables para la visión, a pesar de que estos modelos han mostrado un éxito sobresaliente en NLP. La capacidad para manejar múltiples modalidades de entrada y tareas de salida es esencial para la escalabilidad y versatilidad de la visión.

Los modelos de visión deben manejar varias entradas sensoriales, incluyendo imágenes, 3D y texto, y realizar diversas tareas. En cuanto a la visión, el entrenamiento en imágenes RGB con un único propósito no ha producido los mismos resultados que el modelado de lenguaje en texto sin procesar, lo que ha llevado a capacidades de multitarea en el procesamiento del lenguaje natural. Como resultado, el entrenamiento debe utilizar diversas modalidades y tareas.

Los datos, la arquitectura y el propósito del entrenamiento son tres factores críticos de escalabilidad a considerar al construir un modelo con atributos deseables para una base de visión. La escalabilidad de los datos se refiere a la capacidad de aprovechar más muestras de entrenamiento para mejorar el rendimiento. En términos arquitectónicos, la escalabilidad significa que el rendimiento mejora a medida que el tamaño del modelo aumenta y se mantiene estable cuando se entrena con tamaños grandes. Por último, un objetivo de entrenamiento escalable debe ser capaz de manejar eficientemente un número creciente de modalidades sin que los costos computacionales se disparen.

Investigaciones recientes del Instituto Federal Suizo de Tecnología de Lausana (EPFL) y Apple se centran en la escalabilidad en estas tres áreas al mismo tiempo que son compatibles con diferentes tipos de entradas.

Para superar estos obstáculos, el equipo presenta una estrategia que consiste en entrenar un único codificador-decodificador Transformer integrado con un objetivo de modelado multimodal enmascarado. 4M significa “Modelado Multimodal enmascarado Masivamente”, destacando la capacidad del enfoque para expandirse a varias modalidades diferentes. Este enfoque combina las mejores características del modelado enmascarado y el aprendizaje multimodal:

  1. Capacidad de codificación predictiva cruzada sólida y representaciones compartidas de escena
  2. Muestreo iterativo que permite utilizar los modelos para tareas generativas
  3. El objetivo del preentrenamiento es aprender eficazmente representaciones ricas

Es importante destacar que 4M integra estas ventajas al mismo tiempo que mantiene la eficiencia a través de varios procesos. Mediante el uso de tokenizadores específicos para cada modalidad, las modalidades se pueden convertir con diferentes formatos en conjuntos o secuencias de tokens discretos, lo que permite entrenar un único Transformer en texto, cuadros delimitadores, imágenes o características de redes neuronales, entre otros. Esto unifica sus dominios de representación. Dado que ya no se necesitan codificadores y cabezas específicos de cada tarea, el Transformer se puede utilizar con cualquier modalidad y mantener un intercambio total de parámetros gracias a este enfoque de tokenización, mejorando la compatibilidad, la escalabilidad y el intercambio.

Además, 4M puede entrenar eficientemente utilizando enmascaramiento de entrada y destino, aunque opera en una gran colección de modalidades. Esto requiere seleccionar aleatoriamente un pequeño subconjunto de tokens de todas las modalidades para utilizarlos como entradas del modelo y otro pequeño subconjunto como objetivos. Para lograr un objetivo de entrenamiento escalable, es necesario desacoplar el número de tokens de entrada y objetivo del número de modalidades. Esto evita que el costo computacional aumente rápidamente a medida que aumenta el número de modalidades. Utilizando CC12M y otros conjuntos de datos disponibles de modalidad única o pares texto-imagen, crean datos de enlace alineados modalmente utilizando redes de etiquetado pseudo.

Sin necesidad de incluir anotaciones multimodales o multitarea, este método de etiquetado pseudo permite el entrenamiento en conjuntos de datos diferentes y a gran escala. Además de sobresalir en numerosas tareas visuales importantes desde el principio, los modelos 4M se pueden ajustar finamente para lograr resultados notables en tareas futuras y modalidades de entrada imprevistas.

Además, se debe utilizar un objetivo de modelado multimodal enmascarado para entrenar modelos generativos dirigibles que puedan condicionarse a cualquier modalidad. Esto permite una expresión diversa de la intención del usuario y varias tareas de edición multimodal. Los parámetros que afectan el rendimiento de 4M luego son estudiados en un análisis de abstracción exhaustivo. Este análisis completo, junto con la facilidad y la generalización de este método, demuestra que 4M tiene un gran potencial para muchas tareas visuales y desarrollos futuros.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?

Los físicos están utilizando computadoras cuánticas para conjurar fenómenos exóticos y afirmando que sus creaciones s...

Noticias de Inteligencia Artificial

'AI Doctor' predice la readmisión en hospitales y otros resultados de salud.

Los investigadores inventaron un algoritmo de inteligencia artificial para predecir los resultados de salud de los pa...

Inteligencia Artificial

Automatizando la Cadena del Pensamiento Cómo la IA puede impulsarse a sí misma a razonar

El método de generación automática de Auto-CoT permite que los modelos de lenguaje generen automáticamente sus propia...

Inteligencia Artificial

Nueva herramienta para construir y reparar carreteras y puentes Inteligencia Artificial

En Pennsylvania y en otros lugares, se está aplicando la inteligencia artificial a la infraestructura envejecida del ...

Inteligencia Artificial

Desde Guangzhou hasta Los Ángeles, los fabricantes de automóviles deslumbran con vehículos impulsados por inteligencia artificial

Buenas noticias para los amantes de los autos: Dos aclamadas exposiciones de automóviles, que se llevan a cabo desde ...