Investigadores de Stanford presentan la Difusión Localmente Condicionada un método para la generación composicional de texto a imagen utilizando modelos de difusión.

Investigadores de Stanford presentan la Difusión Localmente Condicionada para generar texto a imagen.

La modelación de escenas en 3D tradicionalmente ha sido un procedimiento que requiere mucho tiempo y está reservado para personas con experiencia en el campo. Aunque existe una amplia colección de materiales en 3D disponibles en el dominio público, es poco común encontrar una escena en 3D que se ajuste a las necesidades del usuario. Debido a esto, los diseñadores de 3D a veces dedican horas e incluso días para modelar objetos en 3D individuales y ensamblarlos en una escena. Hacer que la creación en 3D sea sencilla y al mismo tiempo mantener el control sobre sus componentes ayudaría a cerrar la brecha entre los diseñadores de 3D experimentados y el público en general (por ejemplo, el tamaño y la posición de los objetos individuales).

La accesibilidad de la modelación de escenas en 3D ha mejorado recientemente debido al trabajo en modelos generativos en 3D. Se han obtenido resultados prometedores para la síntesis de objetos en 3D utilizando redes generativas adversarias (GANs) conscientes del 3D, lo que indica un primer paso hacia la combinación de objetos creados en escenas. Sin embargo, las GANs están especializadas en una única categoría de objetos, lo que limita la variedad de resultados y dificulta la conversión de texto a 3D a nivel de escena. En contraste, la generación de texto a 3D utilizando modelos de difusión permite a los usuarios solicitar la creación de objetos en 3D de una amplia gama de categorías.

La investigación actual utiliza una palabra clave individual para imponer una condición global en las vistas representadas de una escena diferenciable, utilizando priors de difusión de imágenes 2D robustos aprendidos a partir de datos a gran escala de Internet. Estas técnicas pueden producir generaciones excelentes centradas en objetos, pero necesitan ayuda para generar escenas con varias características únicas. La condición global también restringe la controlabilidad, ya que la entrada del usuario se limita a una única palabra clave de texto y no hay forma de influir en el diseño de la escena creada. Los investigadores de Stanford proponen una técnica para la producción de imágenes a partir de texto utilizando modelos de difusión localmente condicionados.

La técnica sugerida construye conjuntos coherentes en 3D con control sobre el tamaño y la posición de los objetos individuales, utilizando palabras clave de texto y cajas delimitadoras en 3D como entrada. Su enfoque aplica etapas de difusión condicional selectivamente a ciertas secciones de la imagen utilizando una máscara de segmentación de entrada y palabras clave de texto coincidentes, produciendo salidas que siguen la composición especificada por el usuario. Al incorporar su técnica en un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes, también pueden crear escenas de texto a 3D con composición.

Específicamente, proporcionan las siguientes contribuciones:

• Presentan la difusión localmente condicionada, una técnica que brinda a los modelos de difusión 2D mayor flexibilidad compositiva.

• Proponen metodologías importantes para el muestreo de la posición de la cámara, lo cual es crucial para una generación 3D compuesta.

• Introducen un método para la síntesis 3D compuesta mediante la adición de la difusión localmente condicionada a un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

La industria de los datos de ubicación está en rápido crecimiento pero aún en su infancia técnica. La mayoría de los ...

Inteligencia Artificial

Utilizando LLMs para codificar nuevas tareas para los robots

Un equipo de investigación desarrolló una herramienta que utiliza modelos de lenguaje grandes para codificar nuevas t...

Inteligencia Artificial

Las Nuevas Implicaciones Éticas de la Inteligencia Artificial Generativa

El rápido progreso del IA generativa hace necesario implementar urgentemente salvaguardias éticas contra los riesgos ...

Inteligencia Artificial

Sobre el aprendizaje en presencia de grupos subrepresentados

Déjame presentarte nuestro último trabajo, que ha sido aceptado por ICML 2023 Cambio es Difícil Un Vistazo más Detall...

Inteligencia Artificial

Ajusta y despliega Mistral 7B con Amazon SageMaker JumpStart

Hoy, nos complace anunciar la capacidad de ajustar el modelo Mistral 7B utilizando Amazon SageMaker JumpStart. Ahora ...