De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

Explorando la narración de videos con descripción de video multimodal de IA

El lenguaje es el modo predominante de interacción humana, ofreciendo más que solo detalles complementarios a otras facultades como la vista y el sonido. También sirve como un canal eficiente para transmitir información, como usar la navegación guiada por voz para llevarnos a un lugar específico. En el caso de las personas con discapacidad visual, pueden disfrutar de una película escuchando su audio descriptivo. El primero demuestra cómo el lenguaje puede mejorar otros modos sensoriales, mientras que el último destaca la capacidad del lenguaje para transmitir información máxima en diferentes modalidades.

Los esfuerzos contemporáneos en la modelización multimodal se esfuerzan por establecer conexiones entre el lenguaje y varios otros sentidos, abarcando tareas como la descripción de imágenes o videos, la generación de representaciones textuales a partir de imágenes o videos, la manipulación de contenido visual guiada por texto y más.

Sin embargo, en estas empresas, el lenguaje complementa predominantemente la información sobre otros inputs sensoriales. En consecuencia, estos esfuerzos a menudo no logran representar de manera integral el intercambio de información entre diferentes modos sensoriales. Se centran principalmente en elementos lingüísticos simplistas, como subtítulos de una sola oración.

Dada la brevedad de estos subtítulos, solo logran describir entidades y acciones prominentes. En consecuencia, la información transmitida a través de estos subtítulos es considerablemente limitada en comparación con la abundancia de información presente en otras modalidades sensoriales. Esta discrepancia resulta en una notable pérdida de información al intentar traducir información de otros reinos sensoriales al lenguaje.

En este estudio, los investigadores ven el lenguaje como una forma de compartir información en la modelización multimodal. Crean una nueva tarea llamada “Descripción de Video Audible de Granularidad Fina” (FAVD, por sus siglas en inglés), que difiere de la simple descripción de videos. Por lo general, los subtítulos cortos de los videos se refieren a las partes principales. FAVD, en cambio, solicita a los modelos que describan los videos de manera más similar a como lo harían las personas, comenzando con un resumen rápido y luego agregando información cada vez más detallada. Este enfoque conserva una porción más sólida de información de video dentro del marco del lenguaje.

Dado que los videos contienen señales visuales y auditivas, la tarea FAVD también incorpora descripciones de audio para mejorar la representación integral. Para respaldar la ejecución de esta tarea, se ha construido un nuevo conjunto de datos de referencia llamado “Conjunto de Datos de Descripción de Video Audible de Granularidad Fina” (FAVDBench) para el entrenamiento supervisado. FAVDBench es una colección de más de 11,000 clips de video de YouTube, organizados en más de 70 categorías de la vida real. Las anotaciones incluyen resúmenes concisos de una sola oración, seguidos de 4-6 oraciones detalladas sobre aspectos visuales y 1-2 oraciones sobre audio, ofreciendo un conjunto de datos completo.

Para evaluar de manera efectiva la tarea FAVD, se han diseñado dos métricas novedosas. La primera métrica, denominada “EntityScore”, evalúa la transferencia de información de los videos a las descripciones mediante la medición de la exhaustividad de las entidades dentro de las descripciones visuales. La segunda métrica, “AudioScore”, cuantifica la calidad de las descripciones de audio dentro del espacio de características de un modelo de audio-visual-lenguaje pre-entrenado.

Los investigadores proporcionan un modelo fundamental para la tarea recién introducida. Este modelo se basa en un marco establecido de descripción de videos de extremo a extremo, complementado por una rama de audio adicional. Además, se realiza una expansión desde un transformador visual-lenguaje a un transformador audio-visual-lenguaje (AVLFormer, por sus siglas en inglés). AVLFormer tiene una estructura de codificador-decodificador como se muestra a continuación. 

https://arxiv.org/abs/2303.15616

Los codificadores visuales y de audio se adaptan para procesar los clips de video y el audio, respectivamente, permitiendo la amalgamación de tokens multimodales. El codificador visual se basa en el transformador de video swin, mientras que el codificador de audio utiliza el transformador de audio patchout. Estos componentes extraen características visuales y de audio de los cuadros de video y los datos de audio. Otros componentes, como el modelado de lenguaje enmascarado y el modelado de lenguaje auto-regresivo, se incorporan durante el entrenamiento. Inspirado en modelos anteriores de descripción de videos, AVLFormer también utiliza descripciones textuales como entrada. Utiliza un tokenizador de palabras y una incrustación lineal para convertir el texto en un formato específico. El transformador procesa esta información multimodal y produce una descripción detallada de los videos proporcionados como entrada.

A continuación se presentan algunos ejemplos de resultados cualitativos y comparación con enfoques de vanguardia.

https://arxiv.org/abs/2303.15616

En conclusión, los investigadores proponen FAVD, una nueva tarea de subtitulado de video para descripciones de video auditivas de granularidad fina, y FAVDBench, un nuevo punto de referencia para entrenamiento supervisado. Además, diseñaron un nuevo modelo de línea de base basado en transformadores, AVLFormer, para abordar la tarea de FAVD. Si estás interesado y deseas obtener más información al respecto, no dudes en consultar los enlaces citados a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

¡Hola GPU, ¿qué hay de mi matriz?

Multiplicación de matrices; el Santo Grial de las redes neuronales profundas y los gigantes modernos de la comprensió...

Inteligencia Artificial

OpenAI presenta GPTBot un rastreador web diseñado para extraer datos de toda la Internet automáticamente

OpenAI ha respondido a las preocupaciones de privacidad y propiedad intelectual derivadas de la recopilación de datos...

Ciencia de Datos

El modelo de inteligencia artificial de NVIDIA para salvar la Tierra, obtiene financiamiento de la NASA.

Es impresionante ver las lluvias de meteoros iluminar el cielo nocturno. Sin embargo, la amenaza de objetos celestes ...

Inteligencia Artificial

AI Equipaje para Personas con Discapacidad Visual Recibe Excelentes Críticas

La maleta de IA ofrece características que superan a las de los sistemas de guía tradicionales de teléfonos inteligen...