Investigadores de Stanford presentan la Difusión Localmente Condicionada un método para la generación composicional de texto a imagen utilizando modelos de difusión.
Investigadores de Stanford presentan la Difusión Localmente Condicionada para generar texto a imagen.
La modelación de escenas en 3D tradicionalmente ha sido un procedimiento que requiere mucho tiempo y está reservado para personas con experiencia en el campo. Aunque existe una amplia colección de materiales en 3D disponibles en el dominio público, es poco común encontrar una escena en 3D que se ajuste a las necesidades del usuario. Debido a esto, los diseñadores de 3D a veces dedican horas e incluso días para modelar objetos en 3D individuales y ensamblarlos en una escena. Hacer que la creación en 3D sea sencilla y al mismo tiempo mantener el control sobre sus componentes ayudaría a cerrar la brecha entre los diseñadores de 3D experimentados y el público en general (por ejemplo, el tamaño y la posición de los objetos individuales).
La accesibilidad de la modelación de escenas en 3D ha mejorado recientemente debido al trabajo en modelos generativos en 3D. Se han obtenido resultados prometedores para la síntesis de objetos en 3D utilizando redes generativas adversarias (GANs) conscientes del 3D, lo que indica un primer paso hacia la combinación de objetos creados en escenas. Sin embargo, las GANs están especializadas en una única categoría de objetos, lo que limita la variedad de resultados y dificulta la conversión de texto a 3D a nivel de escena. En contraste, la generación de texto a 3D utilizando modelos de difusión permite a los usuarios solicitar la creación de objetos en 3D de una amplia gama de categorías.
La investigación actual utiliza una palabra clave individual para imponer una condición global en las vistas representadas de una escena diferenciable, utilizando priors de difusión de imágenes 2D robustos aprendidos a partir de datos a gran escala de Internet. Estas técnicas pueden producir generaciones excelentes centradas en objetos, pero necesitan ayuda para generar escenas con varias características únicas. La condición global también restringe la controlabilidad, ya que la entrada del usuario se limita a una única palabra clave de texto y no hay forma de influir en el diseño de la escena creada. Los investigadores de Stanford proponen una técnica para la producción de imágenes a partir de texto utilizando modelos de difusión localmente condicionados.
- Raíces cúbicas utilizando cuadráticas genéticas adaptadas
- Conoce Quivr Un proyecto de código abierto diseñado para almacenar y recuperar información desestructurada como un segundo cerebro
- Guía de Chroma DB | Una Tienda de Vectores para tus LLMs Generativos de IA
La técnica sugerida construye conjuntos coherentes en 3D con control sobre el tamaño y la posición de los objetos individuales, utilizando palabras clave de texto y cajas delimitadoras en 3D como entrada. Su enfoque aplica etapas de difusión condicional selectivamente a ciertas secciones de la imagen utilizando una máscara de segmentación de entrada y palabras clave de texto coincidentes, produciendo salidas que siguen la composición especificada por el usuario. Al incorporar su técnica en un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes, también pueden crear escenas de texto a 3D con composición.
Específicamente, proporcionan las siguientes contribuciones:
• Presentan la difusión localmente condicionada, una técnica que brinda a los modelos de difusión 2D mayor flexibilidad compositiva.
• Proponen metodologías importantes para el muestreo de la posición de la cámara, lo cual es crucial para una generación 3D compuesta.
• Introducen un método para la síntesis 3D compuesta mediante la adición de la difusión localmente condicionada a un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo obtener esa oferta de trabajo de regreso
- Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas
- Cómo Patsnap utilizó la inferencia de GPT-2 en Amazon SageMaker con baja latencia y costo
- ¿Está cambiando el comportamiento de ChatGPT con el tiempo? Los investigadores evalúan las versiones de marzo de 2023 y junio de 2023 de GPT-3.5 y GPT-4 en cuatro tareas diversas.
- 8 Ejemplos Modernos de Inteligencia Artificial en los Videojuegos
- Un nuevo conjunto de datos de imágenes del Ártico impulsará la investigación en inteligencia artificial
- Un superordenador de inteligencia artificial cobra vida, impulsado por gigantes chips de computadora