Investigadores de Alibaba presentan la serie Qwen-VL un conjunto de modelos de visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes
Investigadores de Alibaba presentan la serie Qwen-VL, modelos de visión-lenguaje a gran escala para percibir y comprender texto e imágenes.
Los Modelos de Lenguaje Grande (LLMs) han generado mucho interés últimamente debido a sus poderosas habilidades de creación y comprensión de texto. Estos modelos tienen capacidades interactivas significativas y el potencial de aumentar la productividad como asistentes inteligentes al alinear aún más las instrucciones con la intención del usuario. Por otro lado, los modelos de lenguaje grande nativos se limitan al ámbito del texto puro y no pueden manejar otras modalidades ampliamente utilizadas, como imágenes, audio y videos, lo que restringe severamente el rango de aplicaciones para los modelos. Se han creado una serie de Modelos de Lenguaje y Visión Grande (LVLMs) para mejorar los modelos de lenguaje grande con la capacidad de reconocer y comprender información visual para superar esta limitación.
Estos modelos expansivos de visión y lenguaje muestran un considerable potencial para resolver problemas prácticos centrados en la visión. Los investigadores del grupo Alibaba presentan el miembro más reciente de la serie Qwen de código abierto, los modelos de la serie Qwen-VL, para promover el crecimiento de la comunidad de código abierto multimodal. Los modelos de gran escala de visión y lenguaje de la familia Qwen-VL vienen en dos variantes: Qwen-VL y Qwen-VL-Chat. El modelo pre-entrenado Qwen-VL conecta un codificador visual al modelo de lenguaje Qwen-7B para proporcionar capacidades visuales. Qwen-VL puede percibir y comprender información visual en múltiples escalas después de completar las tres etapas de entrenamiento. Además, Qwen-VL-Chat es un modelo interactivo de lenguaje visual basado en Qwen-VL que utiliza métodos de alineación y ofrece una interacción más flexible, como múltiples entradas de imágenes, discusiones de varias rondas y capacidad de localización. Esto se muestra en la Fig. 1.
Las características del
- Escalando la Agrupación Aglomerativa para Grandes Volúmenes de Datos
- Diferenciación automática con Python y C++ para el aprendizaje profundo
- Este artículo de IA de GSAi China presenta un estudio exhaustivo de agentes autónomos basados en LLM
• Excelente rendimiento: Supera ampliamente a los actuales Modelos de Lenguaje Grande de Visión (LVLM) de código abierto en varios benchmarks de evaluación, incluyendo Subtitulación sin Conexión, VQA, DocVQA y Anclaje, en el mismo nivel de modelo.
• LVLM multilingüe que promueve el reconocimiento y anclaje de extremo a extremo de texto bilingüe chino e inglés y de instancias en imágenes: Qwen-VL permite naturalmente el diálogo en inglés, chino y multilingüe.
• Conversaciones entrelazadas de varias imágenes: Esta función permite comparar varias imágenes, hacer preguntas sobre las imágenes y participar en narrativas de varias imágenes.
• Reconocimiento y comprensión precisos: La resolución de 448×448 fomenta el reconocimiento de texto detallado, el aseguramiento de la calidad del documento y la identificación de cuadros delimitadores en comparación con la resolución de 224×224 actualmente empleada por otros LVLM de código abierto.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Revolucionando la Interacción Humano-Máquina La Emergencia de la Ingeniería de Instrucciones
- Router Langchain Cómo crear asistencia de programación utilizando Langchain
- ¿Qué es EDI? Sobre el Intercambio Electrónico de Datos (EDI)
- Amplios horizontes La presentación de NVIDIA señala el camino hacia nuevos avances en Inteligencia Artificial
- Estas herramientas podrían ayudar a proteger nuestras imágenes de la IA
- Superando la productividad en el desarrollo de microservicios con herramientas de IA
- Inserción de objetos con conciencia de profundidad en videos usando Python