Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.

UC Berkeley researchers use large language models in a two-stage generation process to improve spatial reasoning and common sense in text-to-image synthesis.

Recientemente, se han desarrollado avances en la generación de texto a imagen a través de modelos de difusión que pueden sintetizar imágenes altamente realistas y diversas. Sin embargo, a pesar de sus impresionantes capacidades, los modelos de difusión, como Stable Diffusion, a menudo necesitan ayuda con indicaciones que requieren razonamiento espacial o de sentido común, lo que lleva a inexactitudes en las imágenes generadas.

Para abordar este desafío, un equipo de investigación de UC Berkeley y UCSF ha propuesto un nuevo enfoque LMD basado en LLM que mejora la comprensión de las indicaciones en la generación de texto a imagen. Han identificado escenarios, incluyendo negación, numeración, asignación de atributos y relaciones espaciales, donde Stable Diffusion se queda corto en comparación con LMD.

Los investigadores adoptaron una solución rentable para evitar el proceso costoso y que consume mucho tiempo de entrenar modelos de lenguaje grandes (LLMs) y modelos de difusión. Integraron LLMs congelados fuera de la estantería en modelos de difusión, lo que resultó en un proceso de generación de dos etapas que proporciona capacidades mejoradas de razonamiento espacial y de sentido común.

En la primera etapa, se adapta un LLM para funcionar como generador de diseño guiado por texto a través del aprendizaje en contexto. Cuando se le da una indicación de imagen, el LLM produce un diseño de escena que consiste en cajas delimitadoras y descripciones correspondientes. En la segunda etapa, un modelo de difusión está guiado por el diseño generado utilizando un controlador novedoso para generar imágenes. Ambas etapas emplean modelos pre-entrenados congelados sin ninguna optimización de parámetros para LLM o modelos de difusión.

LMD ofrece varias ventajas más allá de la mejora de la comprensión de las indicaciones. Permite la especificación de escena basada en diálogo de múltiples rondas, lo que permite a los usuarios proporcionar aclaraciones y modificaciones adicionales para cada indicación. Además, LMD puede manejar indicaciones en idiomas no compatibles con el modelo de difusión subyacente. Al incorporar un LLM que admite diálogo de múltiples rondas, los usuarios pueden consultar el LLM después de la generación inicial del diseño y recibir diseños actualizados para la generación de imágenes posteriores, facilitando solicitudes como agregar objetos o cambiar sus ubicaciones o descripciones.

Además, LMD acepta indicaciones no inglesas proporcionando un ejemplo de una indicación no inglesa con un diseño y descripción de fondo en inglés durante el aprendizaje en contexto. Esto permite que LMD genere diseños con descripciones en inglés, incluso cuando los modelos de difusión subyacentes carecen de soporte para el idioma dado.

Los investigadores validaron la superioridad de LMD comparándolo con el modelo de difusión base, Stable Diffusion 2.1, que utiliza LMD. Invitan a los lectores a explorar su trabajo para una evaluación integral y comparaciones adicionales.

En resumen, LMD presenta un nuevo enfoque para abordar las limitaciones de los modelos de difusión en seguir con precisión las indicaciones que requieren razonamiento espacial o de sentido común. Al incorporar LLMs congelados y emplear un proceso de generación de dos etapas, LMD mejora significativamente la comprensión de las indicaciones en las tareas de generación de texto a imagen. Ofrece capacidades adicionales, como la especificación de escena basada en diálogo y el manejo de indicaciones en idiomas no compatibles. El trabajo del equipo de investigación abre nuevas posibilidades para mejorar la precisión y la diversidad de las imágenes sintetizadas a través de la integración de modelos congelados disponibles comercialmente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Potenciando la equidad Reconociendo y abordando el sesgo en los modelos generativos

En 2021, el Centro de Política de Tecnología de la Información de la Universidad de Princeton publicó un informe en e...

Inteligencia Artificial

Lo que me han enseñado más de 50 entrevistas de Machine Learning (como entrevistador)

Si pensabas que enfrentar una entrevista técnica es difícil, intenta conducir una entrevista. No estoy hablando de lo...

Inteligencia Artificial

Midjourney vs Diffusión Estable La Batalla de los Generadores de Imágenes de IA

Midjourney vs Stable Diffusion, ¿cuál es mejor para ti? Vamos a explorar las fortalezas y debilidades de ambos genera...

Inteligencia Artificial

Simplifica la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler

Los modelos de inteligencia artificial generativa (IA generativa) han demostrado impresionantes capacidades para gene...

Inteligencia Artificial

Explicación intuitiva de los multiplicadores de Lagrange, las condiciones KKT y la dualidad

En esta historia, exploraremos una comprensión clara e perspicaz de tres conceptos relacionados en la optimización ma...