Eliminación y destilación arquitectural Un camino hacia la compresión eficiente en modelos de difusión texto-imagen en IA.

Eliminación y destilación arquitectural para compresión eficiente en modelos de difusión texto-imagen en IA.

Los modelos de difusión de texto a imagen representan un enfoque innovador para generar imágenes a partir de indicaciones textuales. Aprovechan el poder del aprendizaje profundo y la modelización probabilística para capturar las sutiles relaciones entre el lenguaje y los conceptos visuales. Al condicionar un modelo generativo en descripciones textuales, estos modelos aprenden a sintetizar imágenes realistas que representan fielmente la entrada dada.

En el corazón de los modelos de difusión de texto a imagen se encuentra el concepto de difusión, un proceso inspirado en la física estadística. La idea clave detrás de la difusión es refinar iterativamente una imagen inicialmente ruidosa, haciéndola gradualmente más realista y coherente al seguir los gradientes de un modelo de difusión aprendido. Al extender este principio a la síntesis de texto a imagen, los investigadores han logrado resultados notables, permitiendo la creación de imágenes detalladas y de alta resolución a partir de indicaciones de texto con una fidelidad y diversidad impresionantes.

Sin embargo, entrenar tales modelos plantea desafíos significativos. Generar imágenes de alta calidad a partir de descripciones textuales requiere navegar por un espacio vasto y complejo de posibles interpretaciones visuales, lo que dificulta garantizar la estabilidad durante el proceso de aprendizaje. La difusión estable estabiliza el proceso de entrenamiento guiando al modelo para capturar la semántica subyacente del texto y generar imágenes coherentes sin sacrificar la diversidad. Esto resulta en una generación de imágenes más fiable y controlada, empoderando a artistas, diseñadores y desarrolladores para producir contenido visual cautivador con mayor precisión y control.

Una gran desventaja de la difusión estable es que su extensa arquitectura requiere recursos computacionales significativos y resulta en un tiempo de inferencia prolongado. Para abordar esta preocupación, se han propuesto varios métodos para mejorar la eficiencia de los modelos de difusión estable (SDMs, por sus siglas en inglés). Algunos métodos intentaron reducir el número de pasos de eliminación de ruido mediante la destilación de un modelo de difusión pre-entrenado, que se utiliza para guiar un modelo similar con menos pasos de muestreo. Otros enfoques emplearon técnicas de cuantificación posterior al entrenamiento para reducir la precisión de los pesos y las activaciones del modelo. El resultado es un tamaño de modelo reducido, requisitos de memoria más bajos y una mayor eficiencia computacional.

Sin embargo, la reducción alcanzable por estas técnicas no es sustancial. Por lo tanto, deben explorarse otras soluciones, como la eliminación de elementos arquitectónicos en modelos de difusión.

El trabajo presentado en este artículo refleja esta motivación y revela el potencial significativo de las técnicas de compresión arquitectónica clásica para lograr modelos de difusión más pequeños y más rápidos. El pipeline de pre-entrenamiento se muestra en la figura debajo.

https://arxiv.org/abs/2305.15798

El procedimiento elimina múltiples bloques residuales y de atención de la arquitectura U-Net de un modelo de difusión estable (SDM) y pre-entrena el modelo compacto (o estudiante) utilizando la destilación de conocimiento a nivel de características (KD, por sus siglas en inglés).

Algunos conocimientos interesantes sobre la eliminación de arquitectura incluyen etapas descendentes, ascendentes y medias.

Para las etapas descendentes y ascendentes, este enfoque reduce el número de bloques residuales y de atención cruzada innecesarios en la arquitectura U-Net mientras se preserva el procesamiento de información espacial crucial. Se alinea con el método DistilBERT y permite el uso de pesos pre-entrenados para la inicialización, lo que resulta en un modelo más eficiente y compacto.

Sorprendentemente, la eliminación de la etapa media de la U-Net original tiene poco impacto en la calidad de generación mientras reduce significativamente los parámetros. Este equilibrio entre la eficiencia computacional y la calidad de generación lo convierte en una opción viable para la optimización.

Según los autores, cada estudiante logra una habilidad sobresaliente en la síntesis de texto a imagen de alta calidad después de destilar el conocimiento del maestro. En comparación con la difusión estable, con 1.04 mil millones de parámetros y una puntuación FID de 13.05, el modelo BK-SDM-Base, con 0.76 mil millones de parámetros, logra una puntuación FID de 15.76. De manera similar, el modelo BK-SDM-Small, con 0.66 mil millones de parámetros, logra una puntuación FID de 16.98, y el modelo BK-SDM-Tiny, con 0.50 mil millones de parámetros, logra una puntuación FID de 17.12.

Se informan aquí algunos resultados para comparar visualmente los enfoques propuestos y los enfoques del estado del arte.

https://arxiv.org/abs/2305.15798

Este resumen de una nueva técnica de compresión para modelos de difusión de Texto-a-Imagen (T2I) se centra en la eliminación inteligente de elementos arquitectónicos y estrategias de destilación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...

Inteligencia Artificial

Impulsando la transformación digital a través de la nube

Conferencia principal de Oracle CloudWorld que analiza los viajes de transformación digital con líderes de la industr...

Inteligencia Artificial

Técnicas de caza de amenazas de próxima generación con integración SIEM-SOAR

NLP, IA y ML potencian la ciberseguridad a través del procesamiento de datos optimizado, la gestión automatizada de i...

Inteligencia Artificial

Pensar, rápido y lento + IA

Los cerebros de los humanos contienen un mecanismo diseñado para dar prioridad a las malas noticias. - Daniel Kahnema...

Inteligencia Artificial

Humane lanza un revolucionario wearable con inteligencia artificial el AI Pin

En un movimiento audaz que podría redefinir la computación personal, Humane, una empresa fundada por antiguos diseñad...