El primer IA visual y de lenguaje de propósito general LLaVA

El primer IA visual y de lenguaje LLaVA

LLaVA: Acortando la brecha entre la Inteligencia Artificial Visual y del Lenguaje con GPT-4

Originalmente publicado en louisbouchard.ai, ¡léelo 2 días antes en mi blog!

¡Mira el video!

GPT-4 es poderoso, ¿pero sabías que algunos AIs se construyen completamente gracias a él? Sí, GPT-4 es tan bueno que se puede utilizar para generar datos lo suficientemente buenos como para entrenar otros modelos de IA. ¡Y no cualquier modelo, sino mejores modelos que él mismo! Liu et al. acaban de utilizar GPT-4 para crear un modelo de visión y lenguaje de propósito general llamado LLaVA, el primer modelo de propósito general que comprende y sigue instrucciones visuales y basadas en el lenguaje. Básicamente, es un modelo que tiene un entendimiento casi perfecto del texto y las imágenes al mismo tiempo. Por lo tanto, puedes preguntarle cualquier cosa sobre cualquier imagen. Dado que GPT-4 aún no puede ver imágenes, pero es increíblemente bueno con el texto, podemos enviarle los subtítulos de nuestra imagen y pedirle que produzca diferentes tipos de resultados, como preguntas para preguntas y respuestas, una descripción más detallada de la imagen o incluso preguntas y respuestas de razonamiento sobre el subtítulo de la imagen. Así es como lo hicieron los autores. Le dieron un papel y una personalidad al modelo GPT-4 y le pidieron que generara varios tipos de datos, todos basados en el subtítulo inicial que tenían para cada imagen.

“Un ejemplo para ilustrar los datos de seguimiento de instrucciones. El bloque superior muestra los contextos como subtítulos y cuadros utilizados para solicitar a GPT, y el bloque inferior muestra los tres tipos de respuestas. Tenga en cuenta que la imagen visual no se utiliza para solicitar a GPT, solo la mostramos aquí como referencia.” Imagen y subtítulo del artículo.

Así es cómo se veían las instrucciones dadas a GPT-4 en el caso de LLaVA para construir el mejor conjunto de datos posible que permitiera que el modelo de lenguaje comprendiera la imagen de la manera más profunda posible. Desde pedir una descripción concisa de la imagen hasta una descripción exhaustiva o incluso un análisis detallado de la misma.

La lista de instrucciones para una breve descripción de la imagen. Imagen del artículo.

Estas indicaciones generadas por el usuario y las respuestas generadas por GPT-4 poblarán un buen conjunto de datos lleno de diferentes preguntas, respuestas y descripciones de nuestras imágenes, lo que nos permitirá entrenar nuestra IA multimodal, es decir, una IA que puede procesar imágenes y texto para luego enviar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los robots reciben una mejora 'gripante' ¡AO-Grasp enseña a los bots el arte de no dejar caer tus cosas!

En los últimos años, los robots han encontrado un mayor uso en diversas industrias, desde la fabricación hasta la ate...

Inteligencia Artificial

Centros de datos en riesgo debido a fallas en el software de gestión de energía

Los investigadores de ciberseguridad en Trellix han identificado vulnerabilidades en aplicaciones comúnmente utilizad...

Inteligencia Artificial

4 gigantes tecnológicos - OpenAI, Google, Microsoft y Anthropic se unen para la IA segura

En un movimiento histórico, cuatro de los nombres más importantes en el mundo de la inteligencia artificial se unen p...

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...

Inteligencia Artificial

Las empresas de internet informan sobre la mayor operación de denegación de servicio jamás registrada

Las compañías de tecnología informaron la semana pasada del mayor ataque conocido de denegación de servicio (DoS) en ...