Nuevos investigadores de Microsoft presentan el modelo de lenguaje multimodal de gran tamaño KOSMOS-2

Nuevos investigadores de Microsoft presentan KOSMOS-2, un modelo de lenguaje multimodal de gran tamaño.

En un nuevo artículo, los investigadores de Microsoft han presentado KOSMOS-2, un nuevo modelo de lenguaje multimodal de gran tamaño que ha logrado demostrar su éxito como una interfaz de propósito general. KOSMOS-2 tiene como objetivo revolucionar la interacción entre los seres humanos y la IA en tareas de lenguaje, visión y lenguaje-visión al incorporar capacidades de fundamentación.

Los modelos de lenguaje multimodal de gran tamaño, o MLLMs por sus siglas en inglés, han surgido como una interfaz versátil. Esto se debe a que exhiben un rendimiento notable en diversas actividades. La capacidad de estos modelos para comprender y generar respuestas utilizando diferentes modalidades como texto, imágenes y audio los hace valiosos. KOSMOS-2 lleva esta capacidad a nuevos niveles al permitir la fundamentación de modelos de lenguaje multimodal de gran tamaño.

Las capacidades de fundamentación son particularmente cruciales en actividades de lenguaje-visión, ya que ofrecen una interfaz humano-IA más práctica y efectiva. KOSMOS-2 puede interpretar regiones específicas en imágenes basándose en sus coordenadas geográficas, lo que permite a los usuarios señalar fácilmente elementos o regiones de interés en lugar de depender de descripciones de texto largas.

Una de las características destacadas de KOSMOS-2 es su capacidad para proporcionar respuestas visuales, como cajas delimitadoras. Esta capacidad ayuda enormemente en tareas de lenguaje-visión al eliminar la ambigüedad de la coreferencia y ofrecer referencias visuales precisas y claras. Al conectar frases de sustantivos y términos de referencia con áreas específicas de imágenes, KOSMOS-2 genera respuestas más precisas, informativas y completas.

Para dotar a KOSMOS-2 de capacidades de fundamentación, el equipo de Microsoft Research construyó un conjunto de datos a escala web de emparejamientos de imágenes y texto fundamentados. Al integrar este conjunto de datos con los corpus multimodales existentes en KOSMOS-1, se entrenó al modelo para que aprovechara al máximo su potencial de fundamentación. El proceso implicó extraer y conectar fragmentos de texto relevantes, como frases de sustantivos y expresiones de referencia, con posiciones espaciales representadas por cajas delimitadoras.

Estas coordenadas espaciales se tradujeron luego en tokens de ubicación, creando un formato de datos que actúa como un “hipervínculo” que conecta los elementos de la imagen con la leyenda. Los resultados experimentales demuestran que KOSMOS-2 destaca en tareas de fundamentación como la fundamentación de frases y la comprensión de expresiones de referencia.

Finalmente, según el artículo, tiene un rendimiento competitivo en tareas de lenguaje y lenguaje-visión evaluadas en KOSMOS-1. La inclusión de capacidades de fundamentación abre un conjunto de aplicaciones adicionales para KOSMOS-2, incluyendo la generación de subtítulos fundamentados en imágenes y la respuesta a preguntas visuales fundamentadas.

Si estás interesado, puedes explorar las capacidades de KOSMOS-2 a través de una demostración en línea disponible en GitHub.

Nota del Editor: ¿Estás listo para conocer lo último en IA generativa? Únete a nosotros en la cumbre de un día sobre IA generativa. Ve más allá del bombo y sumérgete en esta tecnología de vanguardia. Regístrate ahora de forma gratuita y desbloquea el poder de la IA generativa.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

Los avances recientes en el aprendizaje profundo por refuerzo (RL) han demostrado un rendimiento sobrehumano por part...

Inteligencia Artificial

Diez años de revisión de la Inteligencia Artificial.

Desde la clasificación de imágenes hasta la terapia de chatbot.

Ciencia de Datos

PatchTST Un avance en la predicción de series temporales.

Los modelos basados en Transformer han sido aplicados con éxito en muchos campos, como el procesamiento del lenguaje ...

Inteligencia Artificial

Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámara...

Inteligencia Artificial

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

La recopilación de datos puede ser una oportunidad primordial para la introducción no intencionada de sesgos de textu...