Investigadores de Alibaba presentan la serie Qwen-VL un conjunto de modelos de visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes

Investigadores de Alibaba presentan la serie Qwen-VL, modelos de visión-lenguaje a gran escala para percibir y comprender texto e imágenes.

Los Modelos de Lenguaje Grande (LLMs) han generado mucho interés últimamente debido a sus poderosas habilidades de creación y comprensión de texto. Estos modelos tienen capacidades interactivas significativas y el potencial de aumentar la productividad como asistentes inteligentes al alinear aún más las instrucciones con la intención del usuario. Por otro lado, los modelos de lenguaje grande nativos se limitan al ámbito del texto puro y no pueden manejar otras modalidades ampliamente utilizadas, como imágenes, audio y videos, lo que restringe severamente el rango de aplicaciones para los modelos. Se han creado una serie de Modelos de Lenguaje y Visión Grande (LVLMs) para mejorar los modelos de lenguaje grande con la capacidad de reconocer y comprender información visual para superar esta limitación.

Estos modelos expansivos de visión y lenguaje muestran un considerable potencial para resolver problemas prácticos centrados en la visión. Los investigadores del grupo Alibaba presentan el miembro más reciente de la serie Qwen de código abierto, los modelos de la serie Qwen-VL, para promover el crecimiento de la comunidad de código abierto multimodal. Los modelos de gran escala de visión y lenguaje de la familia Qwen-VL vienen en dos variantes: Qwen-VL y Qwen-VL-Chat. El modelo pre-entrenado Qwen-VL conecta un codificador visual al modelo de lenguaje Qwen-7B para proporcionar capacidades visuales. Qwen-VL puede percibir y comprender información visual en múltiples escalas después de completar las tres etapas de entrenamiento. Además, Qwen-VL-Chat es un modelo interactivo de lenguaje visual basado en Qwen-VL que utiliza métodos de alineación y ofrece una interacción más flexible, como múltiples entradas de imágenes, discusiones de varias rondas y capacidad de localización. Esto se muestra en la Fig. 1.

Figura 1: Se muestran algunas muestras cualitativas producidas por Qwen-VL-Chat en la Figura 1. Qwen-VL-Chat admite múltiples entradas de imágenes, conversaciones de ida y vuelta, conversaciones multilingües y capacidades de localización.

Las características del

• Excelente rendimiento: Supera ampliamente a los actuales Modelos de Lenguaje Grande de Visión (LVLM) de código abierto en varios benchmarks de evaluación, incluyendo Subtitulación sin Conexión, VQA, DocVQA y Anclaje, en el mismo nivel de modelo.

• LVLM multilingüe que promueve el reconocimiento y anclaje de extremo a extremo de texto bilingüe chino e inglés y de instancias en imágenes: Qwen-VL permite naturalmente el diálogo en inglés, chino y multilingüe.

• Conversaciones entrelazadas de varias imágenes: Esta función permite comparar varias imágenes, hacer preguntas sobre las imágenes y participar en narrativas de varias imágenes.

• Reconocimiento y comprensión precisos: La resolución de 448×448 fomenta el reconocimiento de texto detallado, el aseguramiento de la calidad del documento y la identificación de cuadros delimitadores en comparación con la resolución de 224×224 actualmente empleada por otros LVLM de código abierto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Varias filtraciones de datos en 23andMe

Datos genéticos robados llevan a una demanda colectiva contra la empresa de pruebas.

Inteligencia Artificial

El cucaracha cibernético puede navegar por un laberinto

Los investigadores han desarrollado un método para crear cucarachas ciborg para ser utilizadas en misiones de búsqued...

Aprendizaje Automático

Escribir canciones con GPT-4 Parte 3, Melodías

Cómo usar ChatGPT con GPT-4 de OpenAI para escribir melodías para nuevas canciones utilizando tablaturas de guitarra ...

Inteligencia Artificial

EE. UU. y la UE completan el tan esperado acuerdo sobre el intercambio de datos

El acuerdo pone fin a la incertidumbre legal para Meta, Google y decenas de empresas, al menos por ahora.