Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.

Conoce DragonDiffusion, un método de edición de imágenes que permite la manipulación estilo arrastrar en modelos de difusión con granulación fina.

Los modelos de difusión de texto a imagen a gran escala (T2I), que tienen como objetivo generar imágenes condicionadas a un texto / promp determinado, han experimentado un rápido desarrollo gracias a la disponibilidad de grandes cantidades de datos de entrenamiento y capacidad informática masiva. No obstante, esta capacidad generativa es a menudo variada, lo que dificulta el desarrollo de indicaciones adecuadas para generar imágenes compatibles con lo que el usuario tiene en mente y la modificación posterior basada en imágenes existentes.

La edición de imágenes tiene requisitos más variados que la creación de imágenes. Dado que el espacio latente es pequeño y fácilmente manipulable, los métodos basados en GAN se han aplicado ampliamente en la edición de imágenes. Los modelos de difusión son más estables y generan salidas de mejor calidad que los modelos GAN.

Un nuevo artículo de investigación realizado por la Universidad de Pekín y el Laboratorio ARC, Tencent PCG, tiene como objetivo determinar si el modelo de difusión puede tener capacidades similares a las de arrastrar.

La dificultad fundamental para implementar esto requiere un espacio latente compacto y editable. Se han desarrollado muchos enfoques de edición de imágenes basados en la similitud entre estas propiedades de texto e imagen intermedias. Los estudios descubren una fuerte semejanza local entre las características de palabras y objetos en el mapa de atención cruzada, que se puede utilizar en la edición.

Aunque existe una correlación sólida entre las características del texto y las características de la imagen intermedia en el proceso de generación de difusión T2I a gran escala, también existe una correspondencia sólida entre las características de la imagen intermedia. Esta característica ha sido investigada en DIFT, demostrando que la correspondencia entre estas características es alta y permite la comparación directa de regiones similares entre imágenes. Debido a esta alta similitud entre los elementos de la imagen, el equipo utiliza este método para realizar modificaciones en la imagen.

Para adaptar la representación intermedia del modelo de difusión, los investigadores idean una estrategia basada en la guía del clasificador llamada DragonDiffusion que convierte las señales de edición en gradientes mediante la pérdida de correspondencia de características. El enfoque propuesto para la difusión utiliza dos grupos de características (es decir, características de guía y características de generación) en diferentes etapas. Con una correspondencia sólida de características de imagen como guía, revisan y refinan las características generadoras en función de las características de guía. La correspondencia sólida de características de imagen también ayuda a preservar la coherencia del contenido entre la imagen modificada y la original.

En este contexto, los investigadores también descubren que otro trabajo llamado Drag-Diffusion investiga el mismo tema simultáneamente. Utiliza LORA para que las cosas se vean como al principio, y mejora el proceso de edición optimizando un solo paso intermedio en el procedimiento de difusión. En lugar de ajustar o entrenar el modelo, como con DragDiffusion, el método propuesto en este trabajo se basa en la guía del clasificador, con todas las señales de edición y coherencia de contenido que provienen directamente de la imagen.

DragonDiffusion deriva todas las señales de modificación de contenido y preservación de la imagen original. Sin ajustes o entrenamiento adicionales del modelo, la capacidad de creación de T2I en modelos de difusión se puede transferir directamente a aplicaciones de edición de imágenes.

Pruebas extensivas muestran que el DragonDiffusion propuesto puede realizar una amplia gama de tareas de modificación de imagen detalladas, como cambiar el tamaño y reposicionar objetos, cambiar su apariencia y arrastrar su contenido.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una introducción práctica a los LLMs

Este es el primer artículo de una serie sobre el uso de Modelos de Lenguaje Grande (LLMs) en la práctica. Aquí daré u...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...

Inteligencia Artificial

Investigadores de NYU y Google AI exploran los límites del aprendizaje automático en el razonamiento deductivo avanzado.

La utilización de numerosas reglas de deducción y la construcción de subpruebas permite que la complejidad de las pru...

Inteligencia Artificial

Empresa derivada de la Universidad de Glasgow recauda $43 millones para 'Digitalizar la Química

Chemify, que se separó de la Universidad de Glasgow del Reino Unido en 2022, ha recibido $43 millones de financiamien...

Inteligencia Artificial

PyTorchEdge presenta ExecuTorch Potenciando la inferencia en dispositivos móviles y de borde

En un movimiento innovador, PyTorch Edge presentó su nuevo componente, ExecuTorch, una solución de vanguardia que est...

Inteligencia Artificial

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

En febrero de 2023, Google causó sensación con su IA de música generativa MusicLM. En ese momento, dos cosas quedaron...