Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.

Meet DORSal, a 3D structured diffusion model for object-level generation and editing of 3D scenes.

La Inteligencia Artificial está evolucionando con la introducción de la IA Generativa y los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés). Modelos conocidos como GPT, BERT, PaLM, entre otros, son algunas grandes incorporaciones a la larga lista de LLMs que están transformando la forma en que los humanos y las computadoras interactúan. En la generación de imágenes, los modelos de difusión han ganado una atención significativa por parte de los investigadores, ya que estos modelos capturan la compleja distribución de probabilidad de un conjunto de datos de imágenes y generan nuevas muestras que se asemejan a los datos de entrenamiento. La comprensión de escenas en 3D también está evolucionando, lo que permite el desarrollo de redes neuronales sin geometría que pueden ser entrenadas en un gran conjunto de datos de escenas para aprender representaciones de escenas. Estas redes generalizan bien a escenas y objetos no vistos previamente, generan vistas a partir de una sola o unas pocas imágenes de entrada y solo necesitan unas pocas observaciones por escena para el entrenamiento.

Mediante la combinación de las capacidades de los modelos de difusión y los modelos de aprendizaje de representaciones de escenas en 3D, un equipo de investigadores de la Universidad de California en Berkeley, Google Research y Google DeepMind ha presentado DORSal (Diffusion for Object-centric Representations of Scenes et al.), que es un enfoque para la generación de nuevas perspectivas en escenas tridimensionales mediante la combinación de representaciones de objetos con decodificadores de difusión. DORSal no tiene geometría, ya que aprende la estructura de la escena en 3D puramente a partir de datos sin requerir ninguna representación volumétrica costosa.

Con el fin de crear escenas en 3D, DORSal utiliza una arquitectura de difusión de video que fue creada inicialmente para fines de síntesis de imágenes. El concepto principal consiste en basarse en representaciones centradas en objetos de las escenas para limitar el modelo de difusión. Estas representaciones capturan detalles cruciales sobre los objetos de la escena y sus características. DORSal facilita la síntesis de perspectivas innovadoras de alta fidelidad de escenas en 3D al configurar el modelo de difusión en estas representaciones centradas en objetos. También mantiene la capacidad de edición de escenas a nivel de objeto, lo que permite a los usuarios cambiar y alterar elementos específicos de la escena.

Las principales contribuciones compartidas por el equipo son las siguientes:

  1. DORSal, un enfoque para la síntesis de nuevas vistas en 3D, utiliza las fortalezas de los modelos de difusión y las representaciones de escenas centradas en objetos para mejorar la calidad de las vistas renderizadas.
  1. DORSal supera a los métodos anteriores de la literatura sobre comprensión de escenas en 3D y es capaz de generar vistas significativamente más precisas, con una mejora de 5x-10x en la Distancia de Inception de Fréchet (FID, por sus siglas en inglés).
  1. En comparación con trabajos anteriores sobre Modelos de Difusión en 3D, DORSal muestra un rendimiento superior en el manejo de escenas más complejas. Al evaluar datos del Mundo Real de Street View, DORSal tiene un rendimiento significativamente mejor en cuanto a calidad de renderización.
  1. DORSal es capaz de condicionar el modelo de difusión en una representación estructurada y basada en objetos de la escena. Mediante el uso de esta representación, DORSal aprende a componer escenas utilizando objetos individuales, lo que permite la edición básica de escenas a nivel de objeto durante la inferencia, lo que permite a los usuarios manipular y modificar objetos específicos dentro de la escena.

En conclusión, la efectividad de DORSal se puede observar en los experimentos realizados tanto en escenas sintéticas complejas de múltiples objetos como en conjuntos de datos de gran escala del mundo real, como Google Street View. Su capacidad para permitir el renderizado neural escalable de escenas en 3D con edición a nivel de objeto lo convierte en un enfoque prometedor para el futuro. Su mejora en la calidad de renderización muestra un potencial para avanzar en la comprensión de escenas en 3D.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Implementa fácilmente SVM multicategoría desde cero en Python

En esta historia, implementaremos el algoritmo de aprendizaje de máquina de vector de soporte en su forma de margen s...

Inteligencia Artificial

Molino de Turing la supercomputadora de IA impulsa el motor económico del Reino Unido

El hogar de la primera revolución industrial acaba de hacer una inversión masiva en la próxima. El gobierno del Reino...

Inteligencia Artificial

Creando un GPT Climático Utilizando la API de Energía de la NASA

En este artículo exploramos la nueva función de los GPT de OpenAI, que ofrece una forma sin código de crear rápidamen...

Inteligencia Artificial

¿Qué es la fusión de modelos?

La fusión de modelos se refiere al proceso de combinar múltiples modelos distintos, cada uno diseñado para realizar t...

Inteligencia Artificial

Conoce SDFStudio un marco unificado y modular para la reconstrucción de superficies neuronales implícitas basado en el proyecto Nerfstudio.

En los últimos años, ha habido un aumento rápido en varios campos relacionados con la visión por computadora y la com...