Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Contextual AI introduces LENS, an AI framework for language models with augmented vision that outperforms Flamingo by 9% (56->65%) on VQAv2.

Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demostrando aptitudes notables en la comprensión semántica, la resolución de consultas y la producción de texto, especialmente en entornos de cero y pocos datos. Como se muestra en la Fig. 1(a), se han propuesto varios métodos para utilizar LLMs en tareas que involucran la visión. Un codificador óptico puede ser entrenado para representar cada imagen como una serie de incrustaciones continuas, permitiendo que el LLM lo comprenda. Otro utiliza un codificador de visión congelado entrenado con contraste, mientras agrega capas adicionales al LLM congelado que luego se aprenden desde cero.

Otro método recomienda entrenar un transformer ligero para alinear un codificador visual congelado (entrenado previamente con contraste) y un LLM congelado. A pesar de los avances en la investigación mencionada anteriormente, todavía es difícil justificar el costo computacional adicional de las etapas de preentrenamiento adicionales. Además, se requieren bases de datos masivas, que incluyen texto, fotos y videos, para sincronizar las modalidades visual y lingüística con un LLM existente. Flamingo agrega nuevas capas de atención cruzada a un LLM preentrenado para agregar características visuales.

Figura 1: Comparación de métodos para coordinar las modalidades visual y lingüística. Hay dos opciones para el preentrenamiento multimodal: (a) utilizando un conjunto de datos emparejados o web; y (b) LENS, una técnica sin preentrenamiento que se puede utilizar con cualquier LLM de comercio sin la necesidad de conjuntos de datos multimodales adicionales. A diferencia de LENS, los enfoques anteriores requieren un preentrenamiento de alineación conjunta en conjuntos de datos multimodales sustanciales para llevar a cabo tareas visuales.

La etapa de preentrenamiento multimodal requiere impresionantes 2 mil millones de pares de imágenes y texto y 43 millones de sitios web, lo que puede llevar hasta 15 días, incluso utilizando un codificador de imágenes preentrenado y un LLM congelado preentrenado. En su lugar, utilizando una variedad de “módulos de visión”, pueden extraer información de las entradas visuales y producir representaciones textuales detalladas (como etiquetas, atributos, acciones y relaciones, entre otras cosas), que luego pueden alimentar directamente al LLM para evitar la necesidad de preentrenamiento multimodal adicional, como se muestra en la Fig. 1(b). Los investigadores de Contextual AI y la Universidad de Stanford presentan LENS (Large Language Models ENhanced to See), una estrategia modular que utiliza un LLM como “módulo de razonamiento” y funciona a través de “módulos de visión” separados.

En primer lugar, extraen información textual rica en la técnica LENS utilizando módulos de visión preentrenados, como modelos de contraste y modelos de subtitulado de imágenes. Luego, el texto se envía al LLM, lo que le permite llevar a cabo tareas, incluido el reconocimiento de objetos, visión y lenguaje (V&L). LENS une las modalidades sin costo alguno al eliminar la necesidad de etapas de preentrenamiento multimodales adicionales o datos. La incorporación de LENS les brinda un modelo que opera en diferentes dominios de manera inmediata, sin necesidad de preentrenamiento cruzado adicional. Además, esta integración nos permite utilizar de inmediato los avances más recientes en visión por computadora y procesamiento del lenguaje natural, maximizando las ventajas asociadas con ambas disciplinas.

Ellos proporcionan las siguientes contribuciones:

• Presentan LENS, un método modular que aborda los desafíos de visión por computadora utilizando las capacidades de aprendizaje en contexto de pocos datos de los modelos de lenguaje a través de descripciones en lenguaje natural de las entradas visuales.

• LENS permite que cualquier LLM de comercio pueda ver sin necesidad de un entrenamiento o datos adicionales.

• Utilizan LLMs congelados para manejar tareas de reconocimiento de objetos y razonamiento visual sin alineación adicional de visión y lenguaje o datos multimodales. Los resultados experimentales muestran que su enfoque logra un rendimiento de cero datos que es competitivo o superior a los modelos preentrenados conjuntamente de extremo a extremo como Kosmos y Flamingo. Una implementación parcial de su artículo está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una nueva investigación de IA de Italia presenta un modelo generativo basado en difusión capaz tanto de la síntesis musical como de la separación de fuentes

Los seres humanos son capaces de procesar varias fuentes de sonido al mismo tiempo, tanto en términos de composición ...

Inteligencia Artificial

Desbloqueando la puerta a la ciencia de datos tu guía de estudio definitiva para GATE 2024 en DS y AI

Introducción El Examen de Aptitud para la Graduación en Ingeniería (GATE, por sus siglas en inglés) es un examen de i...

Inteligencia Artificial

Revolucionando la tecnología portátil el algoritmo de frecuencia cardíaca ultrarrápido de Edge Impulse y la ampliación de la suite de atención médica

El aprendizaje automático se utiliza en casi todos los aspectos de nuestra vida y en diversos campos. Es una tecnolog...

Inteligencia Artificial

Un Enfoque Integral para Mejorar la Seguridad del IoT con Inteligencia Artificial

Transforma la seguridad de IoT con soluciones impulsadas por IA. Protege tus dispositivos de posibles amenazas para u...

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

OpenAI está lanzando una versión beta que promete cambiar por completo la forma en que nos comunicamos con esta IA de...

Inteligencia Artificial

Sam Altman despedido como CEO de OpenAI

En un giro sorprendente de los acontecimientos, OpenAI, el principal laboratorio de investigación en inteligencia art...