Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.

Google Research presenta SPAE, un AutoEncoder para generación multimodal con LLMs grandes congelados.

Los Modelos de Lenguaje Grande (LLMs por sus siglas en inglés) han ganado rápidamente una enorme popularidad debido a sus extraordinarias capacidades en el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural. Este reciente avance en el campo de la Inteligencia Artificial ha revolucionado la forma en que los humanos y las computadoras interactúan entre sí. El modelo reciente desarrollado por OpenAI, que ha estado en los titulares, es el conocido ChatGPT. Basado en la arquitectura de transformadores de GPT, este modelo es famoso por imitar a los humanos al tener conversaciones realistas y realiza desde responder preguntas y generar contenido hasta completar código, traducción automática y resumen de texto.

Los LLMs son excepcionales para capturar conocimientos conceptuales profundos sobre el mundo a través de sus incrustaciones léxicas. Pero los investigadores aún están haciendo esfuerzos para hacer que los LLMs congelaados sean capaces de completar tareas de modalidad visual cuando se les proporcionan las representaciones visuales adecuadas como entrada. Los investigadores han estado sugiriendo utilizar un cuantificador vectorial que mapee una imagen al espacio de tokens de un LLM congelado, lo que traduciría la imagen a un lenguaje que el LLM pueda comprender, permitiendo el uso de las habilidades generativas del LLM para realizar tareas condicionales de comprensión y generación de imágenes sin necesidad de entrenar en pares de imágenes y texto.

Para abordar esto y facilitar esta tarea multimodal, un equipo de investigadores de Google Research y la Universidad Carnegie Mellon ha presentado Semantic Pyramid AutoEncoder (SPAE), un autoencoder para la generación multimodal con LLMs grandes congelados. SPAE produce una secuencia de palabras léxicas que lleva semántica rica y al mismo tiempo conserva detalles finos para la reconstrucción de la señal. En SPAE, el equipo ha combinado una arquitectura de autoencoder con una estructura piramidal jerárquica, y a diferencia de enfoques anteriores, SPAE codifica imágenes en un espacio latente discreto interpretable, es decir, palabras.

La representación en forma de pirámide de los tokens de SPAE tiene múltiples escalas, con las capas inferiores de la pirámide priorizando representaciones de apariencia que capturan detalles finos para la reconstrucción de imágenes y las capas superiores de la pirámide contienen nociones centralmente semánticas. Este sistema permite el ajuste dinámico de la longitud de los tokens para adaptarse a diferentes tareas, utilizando menos tokens para tareas que requieren conocimiento y más tokens para trabajos que requieren generación. Este modelo ha sido entrenado de forma independiente, sin retropropagación a través de ningún modelo de lenguaje.

Para evaluar la efectividad de SPAE, el equipo ha realizado experimentos en tareas de comprensión de imágenes, incluyendo clasificación de imágenes, descripción de imágenes y respuesta a preguntas visuales. Los resultados demostraron lo bien que los LLMs pueden manejar modalidades visuales y algunas aplicaciones excelentes como generación de contenido, apoyo al diseño y narración interactiva. Los investigadores también utilizaron métodos de eliminación de ruido en contexto para ilustrar las capacidades de generación de imágenes de los LLMs.

El equipo ha resumido la contribución de la siguiente manera:

  1. Este trabajo proporciona un gran método para generar contenido visual directamente utilizando el aprendizaje en contexto mediante un modelo de lenguaje congelado que ha sido entrenado solo en tokens de lenguaje.
  1. Se ha propuesto Semantic Pyramid AutoEncoder (SPAE) para generar representaciones interpretables de conceptos semánticos y detalles finos. Los tokens lingüísticos multilingües que genera el tokenizador tienen longitudes personalizables, lo que le brinda más flexibilidad y adaptación para capturar y comunicar las sutilezas de la información visual.
  1. También se ha introducido un método de sugerencia progresiva, que permite la integración perfecta de las modalidades de lenguaje y visual, permitiendo la generación de secuencias multimodales completas y coherentes con una mejor calidad y precisión.
  1. El enfoque supera la precisión de clasificación de imágenes de pocos ejemplos de última generación bajo condiciones de contexto idénticas en un margen absoluto del 25%.

En conclusión, SPAE es un avance significativo en la brecha entre los modelos de lenguaje y la comprensión visual. Muestra el notable potencial de los LLMs en el manejo de tareas multimodales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aprendizaje adaptativo a través de la difusión Un paradigma de vanguardia

Introducción En el dinámico panorama de la educación y el aprendizaje automático, la integración del Aprendizaje Adap...

Inteligencia Artificial

La pantalla 3D podría llevar el tacto al mundo digital

Los ingenieros diseñaron una pantalla de transformación compuesta por una cuadrícula de músculos robóticos blandos qu...

Aprendizaje Automático

Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.

Con los recientes avances tecnológicos en inteligencia artificial, los Modelos de Lenguaje Grande, o LLMs en resumen,...

Inteligencia Artificial

Reduciendo la huella de carbono en el entrenamiento de IA mediante la optimización

Investigadores de la Universidad de Michigan han creado un marco de optimización de código abierto llamado Zeus que a...

Inteligencia Artificial

Los ingenieros están en una misión de encontrar fallas

Un algoritmo desarrollado por investigadores del Instituto de Tecnología de Massachusetts tiene como objetivo identif...

Inteligencia Artificial

Buscar inteligentemente el contenido de Drupal utilizando Amazon Kendra

Amazon Kendra es un servicio de búsqueda inteligente impulsado por aprendizaje automático (ML). Amazon Kendra te ayud...