Conoce MovieChat un innovador sistema de comprensión de video que integra modelos fundamentales de video y grandes modelos de lenguaje.

Conoce MovieChat, un sistema innovador que combina modelos de video y lenguaje.

Los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han avanzado considerablemente en el sector de Procesamiento de Lenguaje Natural (NLP, por sus siglas en inglés) recientemente. Agregar multimodalidad a los LLMs y transformarlos en Modelos de Lenguaje Grande Multimodales (MLLMs, por sus siglas en inglés), que pueden realizar percepción e interpretación multimodal, es un paso lógico. Como un posible paso hacia la Inteligencia Artificial General (AGI, por sus siglas en inglés), los MLLMs han demostrado habilidades emergentes sorprendentes en diversas tareas multimodales como percepción (por ejemplo, existencia, conteo, ubicación, OCR), razonamiento de sentido común y razonamiento de código. Los MLLMs ofrecen una perspectiva más parecida a la humana del entorno, una interfaz amigable para la interacción y una amplia gama de habilidades para resolver tareas en comparación con los LLMs y otros modelos específicos de tareas.

Los MLLMs centrados en la visión existentes utilizan el Q-formador o la capa de proyección básica, LLMs pre-entrenados, un codificador visual y módulos adicionales aprendibles. Un paradigma diferente combina herramientas actuales de percepción visual (como seguimiento y clasificación) con LLMs a través de una API para construir un sistema sin entrenamiento. Algunos estudios anteriores en el sector de video desarrollaron MLLMs de video utilizando este paradigma. Sin embargo, nunca se había investigado un modelo o sistema basado en películas extensas (aquellas que duran más de un minuto) y nunca se habían establecido criterios para medir la efectividad de estos sistemas.

En este estudio, investigadores de la Universidad de Zhejiang, Universidad de Washington, Microsoft Research Asia y la Universidad de Hong Kong presentan MovieChat, un marco único para desafíos de interpretación de videos extensos que combina modelos de visión con LLMs. Según ellos, las dificultades restantes para la comprensión de videos extensos incluyen la dificultad computacional, el gasto de memoria y la vinculación temporal a largo plazo. Para hacer esto, sugieren un sistema de memoria basado en el modelo de memoria de Atkinson-Shiffrin, que implica una memoria a corto plazo actualizada rápidamente y una memoria compacta de larga duración.

Este marco único combina modelos de visión con LLMs y es el primero en permitir tareas de comprensión de videos extensos. Este trabajo se resume de la siguiente manera. Realizan evaluaciones cuantitativas rigurosas y estudios de casos para evaluar el rendimiento tanto de la capacidad de comprensión como del costo de inferencia, y ofrecen un tipo de mecanismo de memoria para minimizar la complejidad computacional y el costo de memoria mientras se mejora la vinculación temporal a largo plazo. Esta investigación concluye presentando un enfoque novedoso para comprender videos que combina modelos de lenguaje grande con modelos de base de video.

El sistema resuelve las dificultades de analizar películas extensas al incluir un proceso de memoria inspirado en el modelo de Atkinson-Shiffrin, que consta de memoria a corto y largo plazo representada por tokens en Transformers. El sistema sugerido, MovieChat, supera a los algoritmos anteriores que solo pueden procesar películas que contienen unos pocos fotogramas al lograr un rendimiento de vanguardia en la comprensión de videos extensos. Este método aborda las relaciones temporales a largo plazo mientras reduce el uso de memoria y la complejidad computacional. El trabajo destaca el papel de los procesos de memoria en la comprensión de videos, lo que permite que el modelo almacene y recuerde información pertinente durante períodos prolongados. La popularidad de MovieChat tiene ramificaciones prácticas para industrias como el análisis de contenido, sistemas de recomendación de videos y monitoreo de videos. Estudios futuros podrían investigar formas de fortalecer el sistema de memoria y utilizar modalidades adicionales, incluido el audio, para aumentar la comprensión de videos. Este estudio crea posibilidades para aplicaciones que necesitan una comprensión exhaustiva de datos visuales. Su sitio web tiene múltiples demos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Qué tienen en común una medusa, un gato, una serpiente y un astronauta? Matemáticas

Un nuevo algoritmo describe los diversos movimientos que ayudan a los animales a navegar por su entorno cambiando sus...

Inteligencia Artificial

AWS y Accel lanzan ML Elevate 2023 para potenciar el ecosistema de startups de IA en India

En una emocionante colaboración, Amazon Web Services (AWS) y Accel han presentado “ML Elevate 2023”, un r...