Este artículo AI propone ‘MotionDirector’ Un enfoque de inteligencia artificial para personalizar el movimiento y apariencia de vídeos.

Este artículo propone 'MotionDirector' una nueva perspectiva de inteligencia artificial para personalizar el movimiento y la apariencia de los vídeos.

Los modelos de difusión de texto a video han avanzado significativamente en los últimos tiempos. Ahora, solo con proporcionar descripciones textuales, los usuarios pueden crear videos realistas o imaginativos. Estos modelos base también se han ajustado para generar imágenes que coincidan con ciertos aspectos, estilos y temas. Sin embargo, aún queda por explorar el área de la personalización del movimiento en la generación de texto a video. Los usuarios pueden querer crear videos con movimientos específicos, como un automóvil avanzando y luego girando a la izquierda. Por lo tanto, es importante adaptar los modelos de difusión para crear contenido más específico que se ajuste a las preferencias de los usuarios.

Los autores de este artículo han propuesto MotionDirector, que ayuda a los modelos base a lograr la personalización del movimiento al mismo tiempo que mantiene la diversidad en la apariencia. La técnica utiliza una arquitectura de doble trayectoria para entrenar a los modelos para que aprendan la apariencia y los movimientos en los videos de referencia simples o múltiples por separado, lo que facilita generalizar el movimiento personalizado a otras configuraciones.

La arquitectura dual comprende tanto una trayectoria espacial como una temporal. El camino espacial tiene un modelo base con LoRAs espaciales entrenables (adaptaciones de rango bajo) integradas en sus capas de transformadores para cada video. Estas LoRAs espaciales se entrenan utilizando una fotograma individual seleccionado aleatoriamente en cada paso de entrenamiento para capturar los atributos visuales de los videos de entrada. Por el contrario, la trayectoria temporal duplica el modelo base, compartiendo las LoRAs espaciales con la trayectoria espacial para adaptarse a la apariencia del video de entrada dado. Además, los transformadores temporales en esta trayectoria se mejoran con las LoRAs temporales, que se entrenan usando varios fotogramas de los videos de entrada para comprender los patrones de movimiento inherentes.

Simplemente al implementar las LoRAs temporales entrenadas, el modelo base puede sintetizar videos de los movimientos aprendidos con apariencias diversas. La arquitectura dual permite que los modelos aprendan la apariencia y el movimiento de los objetos en los videos por separado. Esta desvinculación permite a MotionDirector aislar la apariencia y el movimiento de los videos y luego combinarlos a partir de varios videos de origen.

Los investigadores compararon el rendimiento de MotionDirector en un par de bancos de pruebas, con más de 80 movimientos diferentes y 600 indicaciones de texto. En el banco de pruebas de Acción Deportiva UCF (con 95 videos y 72 indicaciones de texto), MotionDirector fue preferido por los evaluadores humanos alrededor del 75% del tiempo debido a una mayor fidelidad de movimiento. El método también superó las preferencias del 25% de los modelos base. En el segundo banco de pruebas, es decir, el banco de pruebas LOVEU-TGVE-2023 (con 76 videos y 532 indicaciones de texto), MotionDirector obtuvo mejores resultados que otros métodos de generación controlable y basados en ajuste. Los resultados demuestran que se pueden personalizar numerosos modelos base utilizando MotionDirector para producir videos caracterizados por su diversidad y los conceptos de movimiento deseados.

MotionDirector es un método nuevo y prometedor para adaptar modelos de difusión de texto a video para generar videos con movimientos específicos. Es excelente para aprender y adaptar movimientos específicos de sujetos y cámaras, y se puede utilizar para generar videos con una amplia gama de estilos visuales.

Un área en la que MotionDirector podría mejorarse es en el aprendizaje del movimiento de múltiples sujetos en los videos de referencia. Sin embargo, incluso con esta limitación, MotionDirector tiene el potencial de mejorar la flexibilidad en la generación de video, lo que permite a los usuarios crear videos personalizados según sus preferencias y requisitos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Soñar primero, aprender después DECKARD es un enfoque de IA que utiliza LLMs para entrenar agentes de aprendizaje por refuerzo (RL)

El aprendizaje por refuerzo (RL) es un enfoque popular para entrenar agentes autónomos que pueden aprender a realizar...

Inteligencia Artificial

¿Qué es la Hiperpersonalización de IA? Ventajas, Estudios de Caso y Preocupaciones Éticas

Explora el concepto de hiperpersonalización de IA, sus mecanismos y estudios de caso. Aprende sobre sus ventajas e im...

Inteligencia Artificial

Aprende cómo evaluar el riesgo de los sistemas de IA

La inteligencia artificial (IA) es un campo en rápido desarrollo con el potencial de mejorar y transformar muchos asp...

Inteligencia Artificial

¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-...