Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Salesforce AI ha desarrollado EDICT, un algoritmo de edición que genera difusión de texto a imagen de forma invertible en cualquier modelo existente.

Con los avances recientes en tecnología y en el campo de la Inteligencia Artificial, ha habido muchas innovaciones. Ya sea la generación de texto utilizando el modelo ChatGPT súper popular o la generación de imágenes a partir de un texto, ahora todo es posible. Actualmente, existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también editan una imagen existente. Generar una imagen suele ser más fácil que editar una imagen disponible, ya que se debe mantener muchos detalles finos durante la edición. Para una edición precisa de imágenes basada en texto, los investigadores han desarrollado un nuevo algoritmo, EDICT – Inversión Exacta de Difusión mediante Transformaciones Acopladas. EDICT es un nuevo algoritmo capaz de realizar edición de imágenes guiada por texto con la ayuda de modelos de difusión.

La generación de texto a imagen es una tarea en la que se entrena un modelo de aprendizaje automático para producir una imagen en función de una descripción de texto dada. El modelo aprende a asociar descripciones de texto con imágenes y genera nuevas imágenes que coinciden con la descripción especificada. EDICT realiza la generación de difusión de texto a imagen utilizando cualquier modelo de difusión existente. En la generación de imágenes, los modelos de difusión son modelos generativos que utilizan un proceso de difusión para producir nuevas imágenes. El proceso de difusión comienza desde una imagen aleatoria y luego la filtra de forma iterativa aplicando una serie de transformaciones hasta que se obtiene una imagen final similar a la imagen objetivo. 

Los modelos de difusión se entrenan para generar una imagen sin ruido a partir de una imagen ruidosa con la ayuda de una descripción de texto. Para editar una imagen, se agrega ruido a la imagen original y esta generación parcial se utiliza para realizar una nueva generación utilizando el texto dado. EDICT funciona en base al concepto de obtener una imagen ruidosa que genere exactamente la imagen original cuando se proporcione el texto original o la indicación. Es una especie de técnica de enmascaramiento inverso. De esta manera, si se modifica ligeramente el texto original, la imagen editada se mantendría en su mayoría sin cambios con solo las alteraciones necesarias.

El equipo detrás de EDICT comparte los resultados del algoritmo con la ayuda de un ejemplo. Al generar una imagen de un gato surfeando en el agua editando una imagen existente de un perro surfeando, se pierden muchos detalles e información minuciosa, como las olas, el color de la tabla, etc. Esto se debe a que, en este método, simplemente se agrega ruido a la imagen original para generar la nueva. En la técnica EDICT, se realiza una generación inversa encontrando una imagen ruidosa que generaría exactamente la imagen original. Esta imagen ruidosa luego genera la imagen real del perro surfeando con la ayuda de la leyenda textual. El ruido de la imagen generada se copia para volver a consultar el modelo con la imagen sin ruido. Seguido de esto, se realiza el ajuste en el texto simplemente reemplazando la palabra “perro” por la palabra “gato” y, finalmente, se obtiene una imagen editada comparativamente detallada de un gato surfeando. EDICT funciona simplemente en base a la idea de hacer dos copias idénticas de una imagen e ir mejorando cada una de ellas alternativamente con detalles de la otra de manera reversible.

Este nuevo enfoque sin duda parece prometedor, ya que los modelos actuales de generación de texto a imagen son inconsistentes y no hacen justicia a los detalles de la imagen original. Al invertir el proceso de generación, se puede preservar el contenido importante de la imagen. Teniendo en cuenta las crecientes innovaciones y demandas de estos modelos de generación de imágenes, EDICT parece ser una gran competencia para todos los modelos existentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Abacus AI presenta un nuevo modelo de lenguaje grande de contexto largo y abierto (LLM) Conoce a Giraffe

Los modelos de lenguaje recientes pueden tomar contextos largos como entrada; se necesita más información sobre cómo ...

Inteligencia Artificial

Auriculares para monitorear el cerebro y el cuerpo

Estos auriculares te escuchan, para determinar si tu cerebro y/o cuerpo están funcionando al máximo rendimiento.

Inteligencia Artificial

Explorando el Árbol de Pensamiento Promoviendo Cómo la IA puede aprender a razonar a través de la búsqueda

El nuevo enfoque representa la resolución de problemas como una búsqueda de pasos de razonamiento para modelos de len...

Aprendizaje Automático

Anunciando mejoras en la extracción de tablas con Amazon Textract

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y da...