Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Investigadores de KAIST presentan FaceCLIPNeRF, un canal de manipulación de caras en 3D utilizando NeRF deformable.

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la representación facial en 3D. Aunque Neural Radiance Field (NeRF) ha logrado un progreso significativo en la reconstrucción de escenas en 3D, muchas de sus técnicas de manipulación se centran en la geometría rígida o en las manipulaciones de color, lo cual debe mejorarse para trabajos que requieran un control detallado sobre las expresiones faciales. Aunque un estudio reciente presentó un enfoque de edición facial controlada regionalmente, requiere un proceso laborioso de recopilación de máscaras anotadas por el usuario de diferentes partes de la cara a partir de fotogramas de entrenamiento seleccionados, seguido de un control de atributos humanos para lograr la alteración deseada. 

Las técnicas de representación implícita específicas de la cara codifican las expresiones faciales observadas con alta fidelidad utilizando los parámetros de modelos de cara moldeables como priors. Sin embargo, sus manipulaciones manuales necesitan conjuntos de entrenamiento grandes que abarquen una variedad de expresiones faciales y que tengan alrededor de 6000 fotogramas. Esto hace que tanto la recopilación de datos como los procesos de manipulación sean arduos. En cambio, investigadores de KAIST y Scatter Lab han desarrollado un método que se entrena con un video de retrato dinámico con alrededor de 300 fotogramas de entrenamiento que comprenden algunos tipos diferentes de instancias de deformación facial para permitir la modificación basada en texto, como se muestra en la Figura 1.

Figura 1

Su enfoque aprende y aísla las deformaciones observadas de un espacio canónico utilizando HyperNeRF antes de controlar una deformación facial. En particular, se enseñan códigos latentes condicionales de escena implícita comunes y códigos latentes de deformación por fotograma en los fotogramas de entrenamiento. Su descubrimiento fundamental es el uso de múltiples códigos latentes espacialmente variables para expresar deformaciones de escena en tareas de manipulación. La revelación surge de las limitaciones de aplicar ingenuamente formulaciones de HyperNeRF a problemas de manipulación, es decir, buscar un solo código latente que codifique una distorsión facial deseada. 

Por ejemplo, un solo código latente no puede transmitir una expresión facial que requiera una mezcla de deformaciones locales observadas en muchos casos. En su estudio, identifican este problema como un “problema de atributo local vinculado” y lo resuelven proporcionando una escena modificada con códigos latentes espacialmente variables. Para hacer esto, primero recopilan todas las deformaciones observadas en una colección de códigos ancla, que luego enseñan a una MLP a combinar para producir numerosos códigos latentes condicionales de posición. Luego, al mejorar las imágenes producidas de los códigos latentes para que estén cerca de un texto objetivo en el espacio de incrustación de CLIP, se realiza la reflectividad de los códigos latentes en las características visuales de un texto objetivo. En conclusión, su trabajo contribuye con lo siguiente: 

• Diseño de una red de manipulación que aprende a representar una escena con códigos latentes espacialmente variables

• Propuesta de un flujo de trabajo de manipulación basado en texto de una cara reconstruida con NeRF

• Hasta donde se sabe, la primera persona en manipular texto sobre una cara que ha sido reconstruida con NeRF.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

AI, Gemelos Digitales para Desatar la Próxima Ola de Innovación en la Investigación del Clima

La inteligencia artificial y la computación acelerada ayudarán a los investigadores del clima a lograr los milagros q...

Inteligencia Artificial

Investigadores de KAIST presentan FaceCLIPNeRF un canal de manipulación impulsado por texto de una cara en 3D utilizando NeRF deformable

Un componente crucial de las mejoras en el contenido digital humano en 3D es la capacidad de manipular fácilmente la ...

Inteligencia Artificial

Esta Investigación de IA Explica los Rasgos de Personalidad Sintéticos en los Modelos de Lenguaje de Gran Escala (LLMs)

La personalidad de un individuo consiste en una combinación única de cualidades, características y formas de pensar. ...

Inteligencia Artificial

Microsoft recibe duras críticas por su seguridad groseramente irresponsable

Azure parece una casa de naipes colapsando bajo el peso de los exploits y vulnerabilidades.

Inteligencia Artificial

Cómo las industrias están cumpliendo las expectativas de los consumidores con la IA de voz

Gracias a los rápidos avances tecnológicos, los consumidores se han acostumbrado a un nivel sin precedentes de comodi...