Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos son sorprendentemente útiles, aunque a veces producen resultados incorrectos en el primer intento, especialmente para clientes con requisitos creativos o de diseño más particulares. La edición de imágenes guiada por texto puede mejorar el proceso de creación de imágenes permitiendo el refinamiento interactivo. Generar modificaciones que sean fieles a las indicaciones de texto y compatibles con las imágenes de entrada es una dificultad significativa. Los investigadores de Good han desarrollado Imagen Editor, un modelo de difusión en cascada para el rellenado con instrucciones de texto.

Imagen Editor puede hacer modificaciones que representen con precisión las indicaciones de texto empleando detectores de objetos para proponer máscaras de rellenado durante el entrenamiento. Imagen Editor puede capturar incluso las características más finas de la imagen de entrada condicionando la cascada en la imagen original de alta resolución. Para mejorar la evaluación cualitativa y cuantitativa, los investigadores de Google proporcionan EditBench, un banco de pruebas estandarizado para el relleno de imágenes guiado por texto. EditBench analiza las alteraciones de relleno examinando objetos, propiedades y escenas en imágenes reales y sintéticas. La evaluación humana detallada en EditBench revela que el enmascaramiento de objetos durante el entrenamiento obtiene significativamente una alineación texto-imagen, siendo Imagen Editor el mejor en comparación con DALL-E 2 y Stable Diffusion. En conjunto, estos modelos son más hábiles en la representación de objetos que en la representación de texto y en el manejo de atributos de material/color/tamaño que en los atributos de conteo/forma.

Editor de Imágenes

Para modificar imágenes, utilice Imagen Editor, un modelo basado en difusión específicamente optimizado para Imagen. Busca representaciones más precisas de las entradas lingüísticas, comandos granulares y salidas de alta calidad. Las tres entradas que utiliza Imagen Editor para determinar las muestras de salida son la imagen a modificar, una máscara binaria para identificar la región de edición y una indicación de texto.

Image Editor permite a los usuarios realizar cambios dirigidos en ciertas regiones de una imagen basándose en una máscara y un conjunto de instrucciones. El modelo considera los objetivos del usuario y realiza ajustes realistas en la imagen. Imagen Editor es un editor de imágenes guiado por texto que combina representaciones lingüísticas amplias con un control granular para generar resultados de alta calidad. Imagen Editor es una versión mejorada de Imagen que utiliza un modelo de difusión en cascada para ajustar finamente el relleno de imágenes guiado por texto. Utilizando tres codificadores de imágenes de reducción de convolución, Imagen Editor proporciona más contexto de imagen y máscara para cada etapa de difusión.

La aplicación fiable del relleno de imágenes guiado por texto de Image Editor se basa en tres métodos fundamentales:

Imagen Editor utiliza una política de enmascaramiento de detector de objetos con un módulo de detector de objetos para generar máscaras de objetos durante el entrenamiento en lugar de las máscaras de caja y trazo aleatorias utilizadas por los modelos de relleno anteriores.

Imagen Editor mejora la edición de alta resolución al requerir la concatenación de resolución completa y por canal de la imagen de entrada y la máscara durante el entrenamiento y la inferencia.

Para influir en los datos hacia una cierta condicionante, en este caso, las indicaciones de texto, los investigadores utilizan el guiado sin clasificador (CFG) en la inferencia. CFG interpola entre las predicciones de los modelos condicionados y no condicionados para lograr una alta precisión en el relleno de imágenes guiado por texto.

Generar salidas fieles a las indicaciones de texto es una dificultad importante en el relleno de imágenes guiado por texto.

EditBench

EditBench utiliza 240 fotos para crear un nuevo estándar para el relleno de imágenes guiado por texto. Se asocia una máscara con cada imagen que denota el área que se alterará durante el proceso de relleno. Para ayudar a los usuarios a especificar la modificación, los investigadores proporcionan tres indicaciones de texto para cada par de imagen-máscara. EditBench es un banco de pruebas de creación de texto a imagen elaborado a mano que, al igual que DrawBench y PartiPrompts, intenta capturar varias categorías y factores de dificultad en la recolección de imágenes. Se incluye una división equitativa de fotos naturales seleccionadas de conjuntos de datos preexistentes de visión por computadora e imágenes sintéticas producidas por modelos de texto a imagen incluidos en EditBench.

El rango de tamaños de máscara soportado por EditBench es amplio, e incluso incluye máscaras grandes que se extienden hasta los bordes de las imágenes. Las preguntas de EditBench están estructuradas para evaluar el rendimiento de los modelos en una variedad de detalles finos en tres categorías:

  1. Atributos (como material, color, forma, tamaño y cantidad)
  2. Tipos de objetos (como comunes, raros y representaciones de texto)
  3. Escenas (como interiores, exteriores, realistas o pintadas)

Evaluación

La alineación texto-imagen y la calidad de imagen en EditBench son sometidas a rigurosas pruebas humanas por parte del equipo de investigación. Además, comparan y contrastan las preferencias humanas con medidas computarizadas. Realizan un análisis de cuatro modelos:

  • Editor de Imágenes (IM)
  • Editor de Imágenes RM (IMRM)
  • Difusión Estable (SD)
  • DALL-E 2 (DL2)

Para evaluar los beneficios del enmascaramiento de objetos durante el entrenamiento, los investigadores comparan el Editor de Imágenes con el Editor de Imágenes RM. Para poner nuestro trabajo en perspectiva con el de otros y examinar más ampliamente las limitaciones del estado actual del arte, hemos incluido evaluaciones de la Difusión Estable y DALL-E 2.

En resumen

Los modelos de edición de imágenes proporcionados son parte de una familia más amplia de modelos generativos que permiten capacidades previamente inaccesibles en la producción de contenido. Sin embargo, también llevan el riesgo de generar contenido que sea perjudicial para los individuos o la sociedad en su conjunto. En general, se acepta en el modelado del lenguaje que los modelos de generación de texto pueden reflejar y magnificar involuntariamente los prejuicios sociales existentes en sus datos de entrenamiento. El Editor de Imágenes es una versión mejorada del rellenado de imágenes guiado por texto de Imagen. El Editor de Imágenes se basa en una política de enmascaramiento de objetos para el entrenamiento y la adición de nuevas capas de convolución para la edición de alta resolución. EditBench es un benchmark sistemático a gran escala para el rellenado de imágenes basado en descripciones de texto. EditBench realiza pruebas exhaustivas de sistemas de relleno basados en atributos, objetos y escenas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Destacar el texto mientras se está hablando utilizando Amazon Polly

Amazon Polly es un servicio que convierte texto en habla realista. Permite el desarrollo de una amplia gama de aplica...

Inteligencia Artificial

Top 40+ Herramientas de IA Generativa (Septiembre 2023)

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más inventivo, preciso y seguro que sus predecesores. Tambié...

Inteligencia Artificial

Gira y Enfrenta lo Extraño

El análisis predictivo tradicional ofrece dos paradigmas a través de los cuales se pueden ver la mayoría de los probl...

Inteligencia Artificial

Moderación de contenido a clasificación sin entrenamiento

¿Y si quisiéramos analizar un pequeño fragmento de texto sin información o contexto adicional y obtener la etiqueta m...