Investigadores de Alibaba presentan la serie Qwen-VL un conjunto de modelos de visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes

Investigadores de Alibaba presentan la serie Qwen-VL, modelos de visión-lenguaje a gran escala para percibir y comprender texto e imágenes.

Los Modelos de Lenguaje Grande (LLMs) han generado mucho interés últimamente debido a sus poderosas habilidades de creación y comprensión de texto. Estos modelos tienen capacidades interactivas significativas y el potencial de aumentar la productividad como asistentes inteligentes al alinear aún más las instrucciones con la intención del usuario. Por otro lado, los modelos de lenguaje grande nativos se limitan al ámbito del texto puro y no pueden manejar otras modalidades ampliamente utilizadas, como imágenes, audio y videos, lo que restringe severamente el rango de aplicaciones para los modelos. Se han creado una serie de Modelos de Lenguaje y Visión Grande (LVLMs) para mejorar los modelos de lenguaje grande con la capacidad de reconocer y comprender información visual para superar esta limitación.

Estos modelos expansivos de visión y lenguaje muestran un considerable potencial para resolver problemas prácticos centrados en la visión. Los investigadores del grupo Alibaba presentan el miembro más reciente de la serie Qwen de código abierto, los modelos de la serie Qwen-VL, para promover el crecimiento de la comunidad de código abierto multimodal. Los modelos de gran escala de visión y lenguaje de la familia Qwen-VL vienen en dos variantes: Qwen-VL y Qwen-VL-Chat. El modelo pre-entrenado Qwen-VL conecta un codificador visual al modelo de lenguaje Qwen-7B para proporcionar capacidades visuales. Qwen-VL puede percibir y comprender información visual en múltiples escalas después de completar las tres etapas de entrenamiento. Además, Qwen-VL-Chat es un modelo interactivo de lenguaje visual basado en Qwen-VL que utiliza métodos de alineación y ofrece una interacción más flexible, como múltiples entradas de imágenes, discusiones de varias rondas y capacidad de localización. Esto se muestra en la Fig. 1.

**Figura 1:** Se muestran algunas muestras cualitativas producidas por Qwen-VL-Chat en la Figura 1. Qwen-VL-Chat admite múltiples entradas de imágenes, conversaciones de ida y vuelta, conversaciones multilingües y capacidades de localización.

Las características del

• Excelente rendimiento: Supera ampliamente a los actuales Modelos de Lenguaje Grande de Visión (LVLM) de código abierto en varios benchmarks de evaluación, incluyendo Subtitulación sin Conexión, VQA, DocVQA y Anclaje, en el mismo nivel de modelo.

• LVLM multilingüe que promueve el reconocimiento y anclaje de extremo a extremo de texto bilingüe chino e inglés y de instancias en imágenes: Qwen-VL permite naturalmente el diálogo en inglés, chino y multilingüe.

• Conversaciones entrelazadas de varias imágenes: Esta función permite comparar varias imágenes, hacer preguntas sobre las imágenes y participar en narrativas de varias imágenes.

• Reconocimiento y comprensión precisos: La resolución de 448×448 fomenta el reconocimiento de texto detallado, el aseguramiento de la calidad del documento y la identificación de cuadros delimitadores en comparación con la resolución de 224×224 actualmente empleada por otros LVLM de código abierto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Alibaba presentan la serie Qwen-VL un conjunto de modelos de visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes

Was this article helpful?

Escalando la Agrupación Aglomerativa para Grandes Volúmenes de Datos

Introducción a la Estadística utilizando el lenguaje de programación R

Inteligencia Artificial

Por qué Bankrate renunció a los artículos generados por IA

Bloqueo de Apple de Beeper Mini en iMessage solo es parte de la gran saga de la burbuja azul/verde

Revolucionando las habilidades de escucha de la IA La Universidad de Tsinghua y ByteDance revelan SALMONN, una revolucionaria red neuronal multimodal para el procesamiento avanzado de audio

¿Puede la IA superar a los humanos en tareas de pensamiento creativo? Este estudio proporciona información sobre la relación entre la creatividad humana y el aprendizaje de máquinas.

Revolucionando el análisis de documentos conozca DSG, el primer sistema entrenable de principio a fin para la extracción de estructuras jerárquicas

Este boletín de inteligencia artificial es todo lo que necesitas #75