No es el Vader que piensas 3D VADER es un modelo de IA que difunde modelos 3D

No es Vader como piensas, 3D VADER es un modelo de IA que difunde modelos 3D

La generación de imágenes nunca ha sido tan fácil. Con el surgimiento de los modelos de IA generativos, el proceso se ha vuelto realmente fácil de comenzar. Es como si tuvieras un diseñador trabajando para ti y todo lo que necesitas hacer es guiarlo para generar la imagen que te gustaría ver.

Lo mismo se aplica a la edición de imágenes. Estos modelos generativos se pueden utilizar no solo para generar nuevas imágenes, sino también para editar las existentes, gracias a las recientes mejoras proporcionadas por investigaciones extensivas.

Todo esto fue posible gracias a los modelos de difusión de eliminación de ruido. Han transformado por completo el dominio de generación de imágenes. Fue uno de los saltos más grandes que hemos presenciado en esta área. Estos modelos se han aplicado en aplicaciones de imágenes, audio y video.

Sin embargo, falta un componente aquí, si te has dado cuenta. ¿Dónde está la tercera dimensión? La generación de imágenes ya ha llegado a un punto de fotorrealismo y ha habido numerosos intentos de generación de video y audio, que cada día son mejores. Uno puede esperar que también alcancen un nivel realmente realista pronto. Pero, ¿por qué no escuchamos mucho sobre la generación de objetos en 3D?

Vivimos en un mundo en 3D. Se caracteriza por objetos 3D estáticos y dinámicos. Esto hace que sea un desafío formidable cerrar la brecha entre 2D y 3D. Permítanos conocer a 3DVADER, un nuevo desafiante que está tratando de cerrar esta brecha.

3DVADER aborda el desafío central en los modelos generativos 3D: cómo abordar sin problemas los detalles geométricos del mundo 3D con las impresionantes capacidades de las técnicas modernas de generación de imágenes.

3DVADER repiensa cómo diseñamos y entrenamos modelos para contenido 3D. A diferencia de los métodos anteriores, que luchaban con la escalabilidad y la diversidad, esta implementación aborda audazmente estos desafíos, ofreciendo una nueva perspectiva sobre el futuro de la generación de contenido 3D.

3DVADER logra esto con un enfoque único. En lugar de depender de los autoencoders convencionales para el entrenamiento, introduce un decodificador automático volumétrico. Este decodificador automático asigna un vector de 1D a cada objeto, eliminando la necesidad de supervisión en 3D y atendiendo a una amplia gama de categorías de objetos. El enfoque aprende representaciones 3D a partir de observaciones 2D, utilizando la consistencia de renderizado como su principio rector. Esta representación novedosa acomoda partes articuladas, una necesidad para modelar objetos no rígidos.

Visión general de 3DVADER. Fuente: https://arxiv.org/pdf/2307.05445.pdf

Otro problema se refiere al conjunto de datos. Dado que las imágenes y los videos monoculares han constituido la mayor cantidad de datos disponibles, preparar un conjunto de datos 3D sólido y versátil es un problema abierto. A diferencia de enfoques anteriores, que se basan en datos 3D capturados minuciosamente, 3DVADER aprovecha imágenes de múltiples vistas y videos monoculares para generar contenido con conocimiento 3D. Supera los desafíos de la falta de diversidad de las poses de los objetos al ofrecer robustez a la información de posición proporcionada por la verdad, estimada o incluso no proporcionada durante el entrenamiento. Además, 3DVADER se adapta a conjuntos de datos que abarcan múltiples categorías de objetos diversos, lo que resuelve el problema de la escalabilidad.

3DVADER puede generar objetos 3D. Fuente: https://snap-research.github.io/3DVADER/

En general, 3DVADER es un enfoque novedoso para generar activos 3D estáticos y articulados, con un decodificador automático 3D como su núcleo. Se adapta a la utilización de supervisión de cámaras existentes o al aprendizaje de esta información durante el entrenamiento. Logra un rendimiento superior en la generación en comparación con las alternativas de última generación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

NVIDIA AI ahora disponible en el Oracle Cloud Marketplace

Entrenar modelos de IA generativa se ha vuelto más fácil. La plataforma de supercomputación AI de NVIDIA DGX Cloud y ...

Inteligencia Artificial

De desbloquear generaciones confiables a través de la cadena de verificación Un salto en la ingeniería oportuna

Explora el método de ingeniería de la cadena de verificación, un paso importante para reducir las alucinaciones en lo...

Inteligencia Artificial

Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la ...

Inteligencia Artificial

Hacia la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje de por Vida

En la última década y especialmente con el éxito del aprendizaje profundo, se ha formado una discusión continua en to...

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

La experiencia de microblogging similar a Twitter sugiere que Meta Platforms se ha estado preparando para desafiar di...