Investigadores de CMU proponen GILL un método de IA para fusionar LLMs con modelos de codificador y decodificador de imágenes

Researchers from CMU propose GILL, an AI method to merge LLMs with image encoder and decoder models.

Con el lanzamiento del nuevo GPT 4 de OpenAI, se ha introducido la multimodalidad en los Modelos de Lenguaje Grandes. A diferencia de la versión anterior, GPT 3.5, que solo se utiliza para permitir que el conocido ChatGPT tome entradas de texto, el último GPT-4 acepta tanto texto como imágenes como entrada. Recientemente, un equipo de investigadores de la Universidad Carnegie Mellon propuso un enfoque llamado Generación de Imágenes con Modelos de Lenguaje Grandes (GILL), que se centra en extender los modelos de lenguaje multimodales para generar algunas imágenes únicas y excelentes.

El método GILL permite el procesamiento de entradas que están mezcladas con imágenes y texto para producir texto, recuperar imágenes y crear nuevas imágenes. GILL logra esto a pesar de que los modelos utilizan codificadores de texto distintos al transferir el espacio de inserción de salida de un LLM solo de texto congelado al de un modelo generador de imágenes congelado. A diferencia de otros métodos que requieren datos de imagen y texto entrelazados, el mapeo se realiza ajustando finamente un pequeño número de parámetros utilizando pares de imágenes y subtitulos.

El equipo ha mencionado que este método combina modelos de lenguaje grandes para texto congelado con modelos de codificación y decodificación de imágenes que ya han sido entrenados. Puede proporcionar una amplia gama de capacidades multimodales, como la recuperación de imágenes, la producción de imágenes únicas y el diálogo multimodal. Esto se ha logrado mediante la fusión de los espacios de inserción de las modalidades. GILL funciona con entradas de imagen y texto mixtas y produce salidas coherentes y legibles.

Este método proporciona una red de mapeo efectiva que vincula el LLM a un modelo generador de texto a imagen para obtener un excelente rendimiento en la generación de imágenes. Esta red de mapeo convierte las representaciones de texto ocultas en el espacio de inserción de los modelos visuales. Al hacerlo, utiliza las potentes representaciones de texto del LLM para producir salidas estéticamente consistentes.

Con este enfoque, el modelo puede recuperar imágenes de un conjunto de datos especificado además de crear nuevas imágenes. El modelo elige si producir u obtener una imagen en el momento de la inferencia. Se utiliza un módulo de decisión aprendido que depende de las representaciones ocultas del LLM para tomar esta decisión. Este enfoque es computacionalmente eficiente, ya que funciona sin necesidad de ejecutar el modelo de generación de imágenes en el momento del entrenamiento.

Este método tiene un mejor rendimiento que los modelos de generación de referencia, especialmente para tareas que requieren un lenguaje más largo y sofisticado. En comparación, GILL supera al método Stable Diffusion en el procesamiento de texto de mayor longitud, incluido el diálogo y el discurso. GILL tiene un mejor rendimiento en la generación de imágenes condicionada por diálogo que los modelos de generación no basados en LLM, beneficiándose del contexto multimodal y generando imágenes que se ajustan mejor al texto dado. A diferencia de los modelos convencionales de texto a imagen que solo procesan entradas textuales, GILL también puede procesar entradas de imagen y texto arbitrariamente entrelazadas.

En conclusión, GILL (Generación de Imágenes con Modelos de Lenguaje Grandes) parece prometedor, ya que muestra una gama más amplia de habilidades en comparación con los modelos de lenguaje multimodales anteriores. Su capacidad para superar a los modelos de generación no basados en LLM en diversas tareas de texto a imagen que miden la dependencia del contexto lo convierte en una solución potente para tareas multimodales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La función de detección de suplantación de identidad protege a las marcas y personalidades de las cuentas falsas en las redes sociales

Una empresa canadiense ha incorporado una función de protección contra la suplantación de identidad en su plataforma ...

Inteligencia Artificial

Desbloqueando la transparencia de la IA Cómo el agrupamiento de características de Anthropic mejora la interpretabilidad de las redes neuronales

En un reciente artículo, “Hacia la monosemanticidad: descomposición de modelos de lenguaje con aprendizaje de d...

Inteligencia Artificial

Morphobots para Marte Caltech desarrolla un robot todo terreno como candidato para una misión de la NASA

Los académicos Mory Gharib y Alireza Ramezani en 2020 estaban pensando en un robot transformador que ahora está tenie...

Inteligencia Artificial

Conoce a Vchitect un sistema de creación de video de gran escala y generalista de código abierto para aplicaciones de texto a video (T2V) e imagen a video (I2V).

El aumento exponencial en la popularidad de la Inteligencia Artificial (IA) en los últimos tiempos ha llevado a grand...

Inteligencia Artificial

Conoce FlexGen un motor de generación de alto rendimiento para ejecutar grandes modelos de lenguaje (LLM) con memoria limitada de GPU.

Recientemente, los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han mostrado un rendimiento impresion...