Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Conoce a Rodin, un nuevo marco de IA para generar avatares digitales en 3D de diversas fuentes.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias de la computación. Representan una de las formas más prometedoras de analizar y sintetizar datos visuales. El Diffusion Estable es el modelo generativo más conocido para producir imágenes hermosas y realistas a partir de una entrada compleja. La arquitectura se basa en Modelos de Difusión (DMs), que han demostrado un poder generativo fenomenal para imágenes y videos. Los avances rápidos en difusión y modelado generativo están impulsando una revolución en la creación de contenido 2D. El mantra es bastante simple: “Si puedes describirlo, puedes visualizarlo”, o mejor aún, “si puedes describirlo, el modelo puede pintarlo para ti”. Es realmente increíble lo que los modelos generativos son capaces de hacer.

Aunque el contenido 2D ha demostrado ser una prueba de estrés para los DMs, el contenido 3D plantea varios desafíos debido, entre otras cosas, a la dimensión adicional. Generar contenido 3D, como avatares, con la misma calidad que el contenido 2D es una tarea difícil dada la memoria y los costos de procesamiento, que pueden ser prohibitivos para producir los detalles ricos requeridos para avatares de alta calidad.

Con la tecnología impulsando el uso de avatares digitales en películas, juegos, metaversos y la industria 3D, permitir que cualquier persona cree un avatar digital puede ser beneficioso. Esa es la motivación que impulsa el desarrollo de este trabajo.

Los autores proponen la Red de difusión Roll-out (Rodin) para abordar el problema de crear un avatar digital. Una descripción general del modelo se muestra en la figura a continuación.

La entrada al modelo puede ser una imagen, ruido aleatorio o una descripción de texto del avatar deseado. El vector latente z se deriva posteriormente de la entrada dada y se utiliza en la difusión. El proceso de difusión consiste en varios pasos de ruido-denoise. En primer lugar, se agrega ruido aleatorio al estado inicial o la imagen y se desenfoca para obtener una imagen mucho más nítida.

La diferencia aquí radica en la naturaleza 3D del contenido deseado. El proceso de difusión se ejecuta como de costumbre, pero en lugar de apuntar a una imagen 2D, el modelo de difusión genera la geometría gruesa del avatar, seguida de un difusor de aumento de difusión para la síntesis de detalles.

La eficiencia computacional y de memoria es uno de los objetivos de este trabajo. Para lograr esto, los autores aprovecharon la representación de campo de radiancia neuronal en tres planos (tres ejes), que, en comparación con las cuadrículas de voxels, ofrece una huella de memoria considerablemente más pequeña sin sacrificar la expresividad.

Luego, se entrena otro modelo de difusión para aumentar la representación de tres planos producida hasta alcanzar la resolución deseada. Por último, se utiliza un decodificador MLP ligero que consta de 4 capas totalmente conectadas para generar una imagen volumétrica RGB.

A continuación se presentan algunos resultados.

En comparación con los enfoques más avanzados mencionados, Rodin proporciona los avatares digitales más nítidos. Para el modelo, no se observan artefactos en las muestras compartidas, a diferencia de las otras técnicas.

Este fue el resumen de Rodin, un nuevo marco de trabajo para generar fácilmente avatares digitales en 3D a partir de diversas fuentes de entrada. Si estás interesado, puedes encontrar más información en los enlaces a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

¡Buenas noticias! China y los Estados Unidos están hablando sobre los peligros de la inteligencia artificial (IA).

Científicos de las dos superpotencias mundiales se preocupan por los riesgos de la IA, la cual podría ofrecer un puen...

Inteligencia Artificial

Introducción al Aprendizaje Automático Explorando sus muchas formas

En estos días, el aprendizaje automático está en todas partes, ¿verdad? Si estás aquí, es muy probable que tengas cur...

Inteligencia Artificial

Investigadores de OpenAI pioneros en modelos avanzados de consistencia para muestreo de datos de alta calidad sin entrenamiento adversario'.

Los modelos de consistencia representan una categoría de modelos generativos diseñados para generar datos de alta cal...

Aprendizaje Automático

Comprendiendo nuestro lugar en el universo

El becario Martin Luther King Jr., Brian Nord, entrena a las máquinas para explorar el cosmos y lucha por la equidad ...