Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Alibaba and Ant Group researchers present VideoComposer, an AI model that combines multiple modalities such as text, sketches, style, and even movement to boost video generation.

Los modelos generativos visuales actuales, en particular los modelos basados en difusión, han logrado avances tremendos en la automatización de la generación de contenido. Gracias a la computación, la escalabilidad de datos y los avances en el diseño arquitectónico, los diseñadores pueden generar visuales o videos realistas utilizando una entrada de texto como entrada. Para lograr una fidelidad y diversidad sin igual, estos métodos a menudo entrenan un modelo de difusión sólido condicionado por texto en conjuntos de datos masivos de video-texto e imagen-texto. A pesar de estos avances notables, todavía existe un obstáculo importante en el pobre grado de control del sistema de síntesis, lo que limita gravemente su utilidad.

La mayoría de los enfoques actuales permiten una creación ajustable mediante la introducción de nuevas condiciones más allá del texto, como mapas de segmentación, máscaras de relleno o bosquejos. El Composer amplía esta idea proponiendo un nuevo paradigma generativo basado en la composicionalidad que puede componer una imagen bajo una amplia gama de condiciones de entrada y lograr una flexibilidad extraordinaria. Si bien Composer sobresale al considerar condiciones de múltiples niveles en la dimensión espacial, puede necesitar ayuda con la producción de video debido a las características únicas de los datos de video. Esta dificultad se debe a la estructura temporal multicapa de las películas, que debe acomodar una amplia gama de dinámicas temporales al tiempo que preserva la coherencia entre los fotogramas individuales. Por lo tanto, la combinación de condiciones temporales adecuadas con pistas espaciales se vuelve crítica para permitir la síntesis de video programable. 

Estas consideraciones previas inspiraron a los investigadores de Alibaba Group y Ant Group a desarrollar VideoComposer, que proporciona una mayor controlabilidad espacial y temporal para la síntesis de video. Esto se logra primero descomponiendo un video en sus partes constituyentes: condición textual, condición espacial y condición temporal crítica, y luego utilizando un modelo de difusión latente para reconstruir el video de entrada bajo la influencia de estos elementos. En particular, para registrar explícitamente las dinámicas entre fotogramas y proporcionar un control directo sobre los movimientos internos, el equipo también ofrece el vector de movimiento específico del video como un tipo de guía temporal durante la síntesis de video. 

Además, introducen un codificador espaciotemporal unificado (STC-encoder) que emplea mecanismos de atención transversal para capturar relaciones espaciotemporales dentro de la entrada secuencial, lo que resulta en una mayor consistencia entre fotogramas de las películas de salida. El STC-encoder también actúa como una interfaz, permitiendo el uso unificado y efectivo de señales de control de una amplia gama de secuencias de condiciones. Por lo tanto, VideoComposer es lo suficientemente adaptable como para componer un video en diversas configuraciones manteniendo la calidad de síntesis consistente. 

Es importante destacar que, a diferencia de los enfoques convencionales, el equipo logró manipular los patrones de movimiento con movimientos manuales relativamente sencillos, como una flecha que muestra la trayectoria de la luna. Los investigadores llevan a cabo varias pruebas cualitativas y cuantitativas que demuestran la eficacia de VideoComposer. Los hallazgos muestran que el método logra niveles notables de creatividad en una amplia gama de actividades generativas secundarias. 

 técnicas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

    Discover more

    Inteligencia Artificial

    Proyecciones de particiones AWS Mejorando el rendimiento de las consultas de Athena

    Este artículo proporciona un análisis de las mejoras de rendimiento en las consultas de AWS Athena utilizando la func...

    Inteligencia Artificial

    De Álgebra Lineal a Aprendizaje Profundo en 7 Libros (Actualización Invierno 2023)

    En mi primer artículo para Towards Data Science, escribí sobre mis libros favoritos de aprendizaje automático que aba...

    Inteligencia Artificial

    Modelado de temas en producción

    En el artículo anterior, discutimos cómo realizar la Modelización de Temas utilizando ChatGPT y obtuvimos excelentes ...