Conoce AnimateDiff un marco de IA efectivo para ampliar los modelos de texto a imagen personalizados (T2I) en un generador de animaciones sin necesidad de ajustes específicos del modelo.

Conoce AnimateDiff, un marco de IA efectivo para generar animaciones personalizadas sin ajustes específicos del modelo.

Los modelos generativos de texto a imagen (T2I) han atraído una atención sin precedentes tanto dentro como fuera de la comunidad de investigación, sirviendo como un punto de entrada de bajo nivel para usuarios no investigadores como artistas y aficionados para participar en la creación de contenido asistida por IA. Se sugieren varias técnicas de personalización ligeras, como DreamBooth y LoRA, para permitir la adaptación personalizada de estos modelos en conjuntos de datos pequeños con un dispositivo de consumo como una computadora portátil con un RTX3080, después de lo cual estos modelos pueden producir contenido personalizado con una calidad notablemente mejorada. Estas técnicas tienen como objetivo fomentar la creatividad de los modelos generativos T2I existentes.

Esto permite a los usuarios agregar rápidamente y asequiblemente ideas o estéticas frescas a un modelo T2I pre-entrenado, lo que ha llevado a la proliferación de modelos personalizados creados por profesionales y aficionados en sitios web de intercambio de modelos como CivitAI y Huggingface. Aunque los modelos personalizados de texto a imagen desarrollados con DreamBooth o LoRA han sido admirados por su calidad visual excepcional, solo producen imágenes estáticas. La falta de un grado temporal de flexibilidad es el problema principal. Quieren saber si pueden convertir la mayoría de los modelos personalizados actuales de T2I en modelos que creen imágenes animadas manteniendo la calidad visual original a la luz de los diversos usos de la animación.

Incorporar modelado temporal en los modelos T2I iniciales y ajustar los modelos utilizando conjuntos de datos de video son dos recomendaciones recientes de técnicas generadoras de texto a video genéricas. Pero para modelos personalizados de T2I, se vuelve difícil ya que los consumidores a menudo necesitan ayuda para permitirse el ajuste delicado de hiperparámetros, la recolección personalizada de videos y los exigentes recursos informáticos. En este trabajo, investigadores del Laboratorio de Inteligencia Artificial de Shanghai, la Universidad China de Hong Kong y la Universidad de Stanford describen una técnica genérica llamada AnimateDiff que permite la creación de imágenes animadas para cualquier modelo personalizado de T2I sin necesidad de ajustes específicos del modelo y con una consistencia de contenido estéticamente agradable a lo largo del tiempo.

Dado que la mayoría de los modelos personalizados de T2I se derivan del mismo modelo base (como difusión estable) y que recolectar los videos correspondientes para cada dominio personalizado no es factible, recurren a diseñar un módulo de modelado de movimiento que podría finalmente animar la mayoría de los modelos personalizados de T2I. Más específicamente, se agrega un módulo de modelado de movimiento a un modelo base T2I y se ajusta en grandes clips de video, aprendiendo las prioridades de movimiento adecuadas. Es importante destacar que los parámetros del modelo subyacente no se alteran. Después de algunos ajustes finos, demuestran que el T2I personalizado que se creó también puede beneficiarse de las prioridades de movimiento bien aprendidas, creando animaciones atractivas y fluidas.

El módulo de modelado de movimiento puede animar todos los modelos de T2I personalizados relevantes sin necesidad de recolección de datos adicional o entrenamiento personalizado. Prueban su AnimateDiff en varios modelos típicos de DreamBooth y LoRA que incluyen imágenes realistas y de anime. La mayoría de los modelos personalizados de T2I podrían ser animados directamente instalando el módulo de modelado de movimiento hábil sin ningún ajuste especial. Además, descubrieron en la práctica que el módulo de modelado de movimiento podría adquirir las prioridades de movimiento correctas con solo la atención vainilla a lo largo de la dimensión temporal. También muestran cómo se pueden utilizar las prioridades de movimiento en dominios como el anime 2D y la animación 3D. Para hacer esto, su AnimateDiff podría resultar en una línea de base sencilla pero eficiente para la energía personalizada, permitiendo a los consumidores adquirir fácilmente animaciones personalizadas por el pequeño costo de personalizar los modelos de imágenes. El código está disponible en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños

En un desarrollo significativo, la Comisión Federal de Comercio (FTC) ha iniciado una investigación contra OpenAI, la...

Inteligencia Artificial

Investigadores de UCL y Google proponen AudioSlots un modelo generativo centrado en slots para la separación de fuentes ciegas en el dominio de audio.

El uso de redes neuronales en arquitecturas que operan en datos estructurados en conjuntos y aprenden a mapear desde ...

Inteligencia Artificial

INDIAai y Meta se unen Abren camino para la innovación y colaboración en IA

En un desarrollo prometedor, INDIAai y Meta se han unido para establecer una poderosa colaboración en el ámbito de la...

Inteligencia Artificial

Cómo diseñar un sensor confiable de $1 para agua potable segura

Ingenieros de la Universidad de Chicago y de la Universidad de Wisconsin-Milwaukee han desarrollado un sensor potenci...

Inteligencia Artificial

Por qué importa el Hype Pensar de manera práctica sobre la IA

ELIZA era un chatbot temprano que compartía algunas similitudes con ChatGPT. ¿Por qué importa esta emoción? Bueno, cu...