Conoce a Cheetor Un modelo de lenguaje multimodal basado en Transformer (MLLMs) que puede manejar eficazmente una amplia variedad de instrucciones de visión-lenguaje entrelazadas y logra un rendimiento de vanguardia sin necesidad de entrenamiento previo.

Conoce a Cheetor, un modelo de lenguaje multimodal basado en Transformer (MLLMs) que logra un rendimiento de vanguardia sin entrenamiento previo en instrucciones de visión-lenguaje entrelazadas.

A través de la sintonización de instrucciones en grupos de tareas de lenguaje con un estilo instructivo, los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han demostrado recientemente habilidades excepcionales para actuar como modelos de propósito general en diversas actividades. La sintonización de instrucciones desbloquea una gran cantidad de generalización sin necesidad de ajuste en LLMs sobre instrucciones de tareas novedosas al ajustar finamente una variedad de tareas en un formato de instrucción-respuesta único. Con el objetivo de larga data en numerosas aplicaciones del mundo real, este resultado ha impulsado una nueva ola de investigación para expandir los modelos de seguimiento de instrucciones solo de texto a modelos multimodales. Para lograr este propósito, Flamingo y BLIP-2 equipan a los LLMs con un codificador visual congelado para comprender las entradas visuales. La capacidad de seguimiento de instrucciones de los modelos se mejora aún más mediante los esfuerzos posteriores de LLaVA, MiniGPT-4 e InstructBLIP al ajustar finamente conjuntos de datos multimodales de seguimiento de instrucciones.

La disponibilidad de asistentes de seguimiento de instrucciones está limitada por estos Modelos de Lenguaje Multimodales Grandes (MLLMs, por sus siglas en inglés), que se concentran principalmente en instrucciones de visión y lenguaje que solo incluyen una sola imagen como contexto visual y tienen una variedad de instrucciones limitada. En contraste, las personas a menudo expresan sus necesidades en la vida real a través de una serie de mensajes y visuales pertinentes. Por ejemplo, las personas pueden necesitar que los modelos se refieran a varias fuentes de conocimiento multimodal (como sitios web visualmente atractivos, libros de texto y diapositivas de clase) para responder a una consulta de dominio abierto. Las instrucciones visión-lenguaje entrelazadas, donde varias imágenes y textos están relacionados semánticamente, son lo que representan estas varias referencias y la consulta.

Investigadores de la Universidad de Zhejiang, la Universidad Nacional de Singapur y la Universidad Tecnológica de Nanyang desarrollaron I4 (Instrucciones de Imagen-Texto Interconectadas y Entrelazadas Semánticamente), una amplia referencia de 31 tareas con instrucciones variadas en un formato unificado de instrucción-respuesta, que abarca 20 escenarios diferentes, para ayudar en la investigación de instrucciones de visión-lenguaje entrelazadas. I4 contiene tres características cruciales: (1) Las instrucciones consisten en secuencias de imágenes y palabras interrelacionadas, como guiones con storyboards y libros de texto con diagramas. Esto se conoce como un contexto visión-lenguaje entrelazado. (2) Hay muchas instrucciones sofisticadas; las tareas van desde actividades conversacionales encarnadas hasta la identificación de discrepancias en fotos de vigilancia y la predicción de habla para cómics. (3) La referencia abarca varios escenarios de seguimiento de instrucciones, incluyendo caricaturas, imágenes comerciales, grabaciones de conducción, instrucciones de recetas, etc. Evalúan sistemáticamente los MLLMs contemporáneos utilizando la referencia sugerida y descubren que necesitan ayuda para llevar a cabo instrucciones multimodales sofisticadas. Argumentan que el Generador de Estímulos Visuales (VPG, por sus siglas en inglés) es crucial en los MLLMs para comprender instrucciones complicadas, aunque los MLLMs actuales se centran principalmente en construir formas sofisticadas de crear datos de sintonización de instrucciones más variados y de alta calidad. Los enfoques existentes sugieren varios VPGs (como la proyección lineal, el Muestreador y el Q-former) para extraer información visual pertinente de la rica información de las imágenes contenida por los bloques visuales (como ViT) para modificar los LLMs y comprender las entradas visuales.

Desafiando al LLM congelado a proporcionar subtítulos condicionados a las señales visuales, entrenan el VPG en millones de pares de imágenes y subtítulos. Aunque eficiente, los subtítulos obtenidos web generalmente solo describen una pequeña parte del primer plano de la imagen. Como resultado, el VPG puede no extraer información precisa necesaria para algunas actividades porque solo se le enseña a extraer información evidente para subtítulos típicos. Además, este problema empeora en I4, ya que las tareas requieren que el VPG preste atención a ciertos detalles visuales relacionados con otras imágenes en contexto (por ejemplo, transmitir las diferencias sutiles entre dos fotos).

Proponen un módulo ligero de Reinyección de Conocimiento Controlable (CLORI, por sus siglas en inglés) que utiliza las capacidades de razonamiento sofisticadas de los LLMs para controlar el VPG (es decir, el Q-former) y extraer nuevamente la información visual faltante condicionada a la semántica específica de la instrucción para abordar el problema crítico del VPG en los MLLMs existentes. Para ser más precisos, utilizan el Q-former para proporcionar señales visuales independientes de la tarea que brinden al LLM información esencial sobre las imágenes. Primero construyen condiciones específicas de la instrucción a partir del modelo de lenguaje para controlar el Q-former y extraer condicionalmente cierta información de las imágenes. Luego, toman estas condiciones y las reinyectan en el LLM.

Utilizando mapas internos de atención cruzada, primero determinan las regiones de una imagen que el Q-former ha pasado por alto en gran medida. Después, utilizan ChatGPT y SAM para identificar los objetivos de edición y producir la descripción de edición correcta. A continuación, utilizando ajustes locales a la imagen original según las instrucciones de edición, utilizan Blended Diffusion para crear una imagen contrafactual. Luego se desarrolla una tarea de entrenamiento previo interimagen discriminativa para describir las diferencias mínimas entre la imagen contrafactual creada y la imagen original. El módulo CLORI debe extraer la información visual faltante en función de la imagen contrafactual y la instrucción de la tarea, ya que los bits modificados se seleccionan de los lugares más descuidados.

Sugieren Cheetor, un MLLM basado en Transformers que puede crear de manera exitosa semántica holística a partir de varias instrucciones complejas de visión y lenguaje gracias a la reinserción ajustable de conocimiento. El módulo CLORI ligero puede ser ajustado eficientemente utilizando la técnica CAGIT con menos de 1 millón de pares de imágenes y texto. Puede ser completado en varias horas con una sola GPU A100 sin la necesidad de enormes conjuntos de datos de ajuste de instrucciones multimodales. Su modelo tiene un rendimiento notablemente mejor en el desafiante benchmark I4 que los MLLMs anteriores, siendo computacional y eficiente en datos. Además, evalúan Cheetor utilizando el benchmark MME, donde su modelo tiene un rendimiento admirable.

El siguiente resumen de sus contribuciones: (1) construyen I4, un benchmark exhaustivo para instrucciones de visión y lenguaje entrelazadas que consta de 31 desafíos que cubren una amplia gama de entornos del mundo real. (2) proporcionan un módulo de reinserción de conocimiento controlado mínimamente (CLORI) que, en respuesta a las circunstancias generadas por el MLLM, reinyecta de manera complementaria información visual específica de la instrucción en el MLLM. (3) Utilizando solo 30k imágenes, enseñan con éxito el módulo CLORI utilizando una técnica de entrenamiento de imágenes contrafactuales guiada por atención cruzada. (4) Su Cheetor logra un rendimiento de última generación en la desafiante prueba I4 a costa de 7 horas de GPU A100, incluso sin datos de ajuste de instrucciones multimodales de alta calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

PhotoGuard de MIT utiliza inteligencia artificial para defenderse contra la manipulación de imágenes por inteligencia artificial

A medida que la inteligencia artificial (IA) avanza, la capacidad de generar y manipular imágenes hiperrealistas se v...

Inteligencia Artificial

Investigadores demuestran pagos digitales cuánticos 'incondicionalmente seguros

La investigación representa un posible avance en las comunicaciones cuánticas y, potencialmente, el comienzo de la er...

Inteligencia Artificial

Mirando hacia adentro

La biosensibilidad lleva los diagnósticos médicos a un nivel más profundo.

Aprendizaje Automático

Rendimiento sobrehumano en la prueba Atari 100K El poder de BBF - Un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal.

El aprendizaje por refuerzo profundo (RL) ha surgido como un algoritmo de aprendizaje automático poderoso para aborda...