Investigadores de Stanford presentan la Difusión Localmente Condicionada un método para la generación composicional de texto a imagen utilizando modelos de difusión.

Investigadores de Stanford presentan la Difusión Localmente Condicionada para generar texto a imagen.

La modelación de escenas en 3D tradicionalmente ha sido un procedimiento que requiere mucho tiempo y está reservado para personas con experiencia en el campo. Aunque existe una amplia colección de materiales en 3D disponibles en el dominio público, es poco común encontrar una escena en 3D que se ajuste a las necesidades del usuario. Debido a esto, los diseñadores de 3D a veces dedican horas e incluso días para modelar objetos en 3D individuales y ensamblarlos en una escena. Hacer que la creación en 3D sea sencilla y al mismo tiempo mantener el control sobre sus componentes ayudaría a cerrar la brecha entre los diseñadores de 3D experimentados y el público en general (por ejemplo, el tamaño y la posición de los objetos individuales).

La accesibilidad de la modelación de escenas en 3D ha mejorado recientemente debido al trabajo en modelos generativos en 3D. Se han obtenido resultados prometedores para la síntesis de objetos en 3D utilizando redes generativas adversarias (GANs) conscientes del 3D, lo que indica un primer paso hacia la combinación de objetos creados en escenas. Sin embargo, las GANs están especializadas en una única categoría de objetos, lo que limita la variedad de resultados y dificulta la conversión de texto a 3D a nivel de escena. En contraste, la generación de texto a 3D utilizando modelos de difusión permite a los usuarios solicitar la creación de objetos en 3D de una amplia gama de categorías.

La investigación actual utiliza una palabra clave individual para imponer una condición global en las vistas representadas de una escena diferenciable, utilizando priors de difusión de imágenes 2D robustos aprendidos a partir de datos a gran escala de Internet. Estas técnicas pueden producir generaciones excelentes centradas en objetos, pero necesitan ayuda para generar escenas con varias características únicas. La condición global también restringe la controlabilidad, ya que la entrada del usuario se limita a una única palabra clave de texto y no hay forma de influir en el diseño de la escena creada. Los investigadores de Stanford proponen una técnica para la producción de imágenes a partir de texto utilizando modelos de difusión localmente condicionados.

La técnica sugerida construye conjuntos coherentes en 3D con control sobre el tamaño y la posición de los objetos individuales, utilizando palabras clave de texto y cajas delimitadoras en 3D como entrada. Su enfoque aplica etapas de difusión condicional selectivamente a ciertas secciones de la imagen utilizando una máscara de segmentación de entrada y palabras clave de texto coincidentes, produciendo salidas que siguen la composición especificada por el usuario. Al incorporar su técnica en un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes, también pueden crear escenas de texto a 3D con composición.

Específicamente, proporcionan las siguientes contribuciones:

• Presentan la difusión localmente condicionada, una técnica que brinda a los modelos de difusión 2D mayor flexibilidad compositiva.

• Proponen metodologías importantes para el muestreo de la posición de la cámara, lo cual es crucial para una generación 3D compuesta.

• Introducen un método para la síntesis 3D compuesta mediante la adición de la difusión localmente condicionada a un proceso de generación de texto a 3D basado en muestreo de destilación de puntajes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA proveniente de China presenta GS-SLAM un enfoque novedoso para mejorar el mapeo y la localización en 3D.

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan, la Universidad Polité...

Inteligencia Artificial

Optical Vectors Beam Multi-Bits' 'Optical Vectors Beam Multi-Bits' (Rayos Ópticos Multibits)

La técnica funciona modulando el factor de calidad de vector, en lugar de la amplitud de un láser.

Inteligencia Artificial

Conoce 3D-VisTA Un Transformer pre-entrenado para alineación de visión 3D y texto que puede adaptarse fácilmente a diversas tareas posteriores.

En el dinámico panorama de la Inteligencia Artificial, los avances están remodelando los límites de lo posible. La fu...

Inteligencia Artificial

Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept

Adept.ai es parte de la generación de nuevos unicornios de la IA. Inicialmente incubado por algunos de los autores de...

Inteligencia Artificial

Tiempo 100 IA ¿Los más influyentes?

La revista Time acaba de publicar su lista Time 100 AI, destacando a 100 figuras clave en IA en categorías como líder...