Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

Meet Video-ControlNet, a new text-to-video dissemination model that will change the game and shape the future of controllable video generation.

En los últimos años, ha habido un rápido desarrollo en la generación de contenido visual basado en texto. Entrenados con pares imagen-texto a gran escala, los modelos actuales de difusión de texto a imagen (T2I, por sus siglas en inglés) han demostrado una impresionante capacidad para generar imágenes de alta calidad basadas en las indicaciones de texto proporcionadas por el usuario. El éxito en la generación de imágenes también se ha extendido a la generación de videos. Algunos métodos aprovechan los modelos T2I para generar videos de manera one-shot o zero-shot, mientras que los videos generados a partir de estos modelos siguen siendo inconsistentes o carecen de variedad. Escalando los datos de video, los modelos de difusión de texto a video (T2V, por sus siglas en inglés) pueden crear videos consistentes con las indicaciones de texto. Sin embargo, estos modelos generan videos que carecen de control sobre el contenido generado.

Un estudio reciente propone un modelo de difusión T2V que permite mapas de profundidad como control. Sin embargo, se requiere un conjunto de datos a gran escala para lograr consistencia y alta calidad, lo que es antieconómico en cuanto a recursos. Además, todavía es un desafío para los modelos de difusión T2V generar videos de consistencia, longitud arbitraria y diversidad.

Se ha introducido Video-ControlNet, un modelo T2V controlable, para abordar estos problemas. Video-ControlNet ofrece las siguientes ventajas: mejora de la consistencia a través del uso de prioridades de movimiento y mapas de control, la capacidad de generar videos de longitud arbitraria mediante el empleo de una estrategia de condicionamiento del primer fotograma, generalización del dominio mediante la transferencia de conocimientos de imágenes a videos y eficiencia de recursos con una convergencia más rápida mediante un tamaño de lote limitado.

La arquitectura de Video-ControlNet se muestra a continuación.

El objetivo es generar videos basados en texto y mapas de control de referencia. Por lo tanto, el modelo generativo se desarrolla mediante la reorganización de un modelo T2I controlable pre-entrenado, la incorporación de capas temporales adicionales entrenables y la presentación de un mecanismo de auto-atención espacial-temporal que facilita las interacciones detalladas entre los fotogramas. Este enfoque permite la creación de videos consistentes en contenido, incluso sin un extenso entrenamiento.

Para asegurar la consistencia de la estructura de video, los autores proponen un enfoque pionero que incorpora la prioridad de movimiento del video fuente en el proceso de desenfoque en la etapa de inicialización de ruido. Al aprovechar la prioridad de movimiento y los mapas de control, Video-ControlNet es capaz de producir videos que parpadean menos y se asemejan de cerca a los cambios de movimiento en el video de entrada, evitando así la propagación de errores en otros métodos basados en el movimiento debido a la naturaleza del proceso de desenfoque de múltiples pasos.

Además, en lugar de los métodos anteriores que entrenan modelos para generar directamente videos completos, se introduce un esquema de entrenamiento innovador en este trabajo, que produce videos basados en el fotograma inicial. Con una estrategia tan sencilla pero efectiva, se vuelve más manejable desentrañar el aprendizaje de contenido y temporal, ya que el primero se presenta en el primer fotograma y la indicación de texto.

El modelo solo necesita aprender a generar fotogramas posteriores, heredando capacidades generativas del dominio de la imagen y aliviando la demanda de datos de video. Durante la inferencia, se genera el primer fotograma condicionado al mapa de control del primer fotograma y una indicación de texto. Luego, se generan fotogramas posteriores, condicionados al primer fotograma, texto y mapas de control posteriores. Al mismo tiempo, otra ventaja de tal estrategia es que el modelo puede generar automáticamente un video de longitud infinita tratando el último fotograma de la iteración anterior como el fotograma inicial.

Así es como funciona. Echemos un vistazo a los resultados reportados por los autores. Se muestra un lote limitado de resultados de muestra y la comparación con enfoques de vanguardia en la figura a continuación.

Este fue el resumen de Video-ControlNet, un nuevo modelo de difusión para la generación de T2V con calidad y consistencia temporal de última generación. Si estás interesado, puedes aprender más sobre esta técnica en los siguientes enlaces.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google Chrome ahora muestra resúmenes de artículos impulsados por IA para una lectura sin esfuerzo

Google está una vez más a la vanguardia de la innovación con su Experiencia Generativa de Búsqueda (SGE) impulsada po...

Inteligencia Artificial

Robot humanoide puede pilotar un avión mejor que un humano

Ingenieros e investigadores están desarrollando un robot humanoide que puede volar aviones sin necesidad de modificac...

Inteligencia Artificial

Análisis en profundidad de la confiabilidad en los modelos GPT

Más de la mitad de los encuestados en una reciente encuesta global afirmaron que utilizarían esta tecnología emergent...

Inteligencia Artificial

Quantización de Tensores La Historia No Contada

A lo largo del resto de este artículo, intentaremos responder a las siguientes preguntas con ejemplos concretos. Esca...

Ciencia de Datos

PyLogik para la Desidentificación de Datos de Imágenes Médicas

Los repositorios de datos son ahora uno de nuestros bienes más valiosos. La información como una mercancía no es un c...

Ciencias de la Computación

Tres postdoctorados en física del MIT en español reciben becas de la Fundación Botton.

Los destinatarios Luis Antonio Benítez, Carolina Cuesta-Lázaro y Fernando Romero López reciben apoyo para su investig...