Conoce a BeLFusion Un enfoque de espacio latente de comportamiento para la predicción de movimiento humano estocástico realista y diverso utilizando difusión latente

Conoce a BeLFusion, un enfoque de espacio latente de comportamiento para la predicción de movimiento humano estocástico diverso utilizando difusión latente.

A medida que la Inteligencia Artificial (IA) continúa cautivando al mundo, surge una notable aplicación en la intersección de la visión por computadora y la IA conocida como Predicción de Movimiento Humano (HMP, por sus siglas en inglés). Esta fascinante tarea implica predecir el movimiento o acciones futuras de sujetos humanos basándose en secuencias de movimiento observadas. El objetivo es predecir cómo evolucionarán las poses o movimientos del cuerpo de una persona. HMP encuentra aplicaciones en diversos campos, incluyendo robótica, avatares virtuales, vehículos autónomos e interacción humano-computadora.

HMP Estocástico es una extensión del HMP tradicional que se centra en predecir la distribución de posibles movimientos futuros en lugar de un futuro determinista único. Este enfoque reconoce la espontaneidad e imprevisibilidad inherentes al comportamiento humano, con el objetivo de capturar la incertidumbre asociada con las acciones o movimientos futuros. El HMP Estocástico tiene en cuenta la variabilidad y diversidad en el comportamiento humano al considerar la distribución de posibles movimientos futuros, lo que lleva a predicciones más realistas y flexibles. Es particularmente valioso cuando anticipar múltiples comportamientos posibles es crucial, como en aplicaciones de robótica asistencial o vigilancia.

El HMP Estocástico a menudo se aborda utilizando modelos generativos como GANs o VAEs para predecir múltiples movimientos futuros para cada secuencia observada. Sin embargo, este énfasis en generar movimientos diversos en el espacio de coordenadas ha llevado a predicciones poco realistas y rápidamente divergentes que pueden necesitar alinearse mejor con el movimiento observado. Además, estos métodos a menudo pasan por alto la anticipación de comportamientos de bajo rango diversos con desplazamientos articulares sutiles. Como resultado, existe la necesidad de nuevos enfoques que consideren la diversidad de comportamiento y produzcan predicciones más realistas en tareas de HMP Estocástico. Para abordar las limitaciones de los métodos existentes de HMP Estocástico, los investigadores de la Universidad de Barcelona y el Centro de Visión por Computadora proponen BeLFusion. Este novedoso enfoque introduce un espacio latente de comportamiento para generar secuencias de movimiento humano realistas y diversas.

Movimientos rápidos y divergentes en modelos generativos.

El objetivo principal de BeLFusion es desentrañar el comportamiento del movimiento, permitiendo transiciones más suaves entre poses observadas y predichas. Esto se logra a través de un VAE de Comportamiento que consta de un Codificador de Comportamiento, un Acoplador de Comportamiento, un Codificador de Contexto y un Decodificador Auxiliar. El Codificador de Comportamiento combina una Unidad Recurrente con Compuertas (GRU, por sus siglas en inglés) y capas convolucionales 2D para mapear las coordenadas articulares a una distribución latente. El Acoplador de Comportamiento luego transfiere el comportamiento muestreado al movimiento en curso, generando movimientos diversos y contextualmente apropiados. BeLFusion también incorpora un Modelo de Difusión Latente (LDM, por sus siglas en inglés) condicional para codificar con precisión la dinámica del comportamiento y transferirla de manera efectiva a los movimientos en curso al minimizar los errores latentes y de reconstrucción para mejorar la diversidad en las secuencias de movimiento generadas.

La innovadora arquitectura de BeLFusion continúa con un Codificador de Observación, un autoencoder que genera estados ocultos a partir de las coordenadas articulares. El modelo utiliza el Modelo de Difusión Latente (LDM), que emplea una U-Net con mecanismos de atención cruzada y bloques residuales para muestrear de un espacio latente donde el comportamiento está desentrañado de la pose y el movimiento. Al promover la diversidad desde una perspectiva de comportamiento y mantener la coherencia con el pasado inmediato, BeLFusion produce predicciones de movimiento significativamente más realistas y coherentes que los métodos de vanguardia en HMP Estocástico. A través de su combinación única de desentrañamiento de comportamiento y difusión latente, BeLFusion representa un avance prometedor en la predicción de movimiento humano. Ofrece el potencial de generar movimientos más naturales y contextualmente apropiados para una amplia gama de aplicaciones.

La evaluación experimental demuestra las impresionantes capacidades de generalización de BeLFusion, ya que tiene un buen desempeño tanto en escenarios conocidos como desconocidos. Supera a los métodos de vanguardia en varias métricas en una evaluación entre conjuntos de datos utilizando los desafiantes resultados en los conjuntos de datos Human3.6M y AMASS. En H36M, BeLFusion demuestra un Error Promedio de Desplazamiento (ADE) de aproximadamente 0.372 y un Error de Desplazamiento Final (FDE) de alrededor de 0.474. Al mismo tiempo, en AMASS, alcanza un ADE de aproximadamente 1.977 y un FDE de aproximadamente 0.513. Los resultados indican la capacidad superior de BeLFusion para generar predicciones precisas y diversas, demostrando su efectividad y capacidades de generalización para la predicción realista del movimiento humano en diferentes conjuntos de datos y clases de acción.

En general, BeLFusion es un método novedoso para la predicción del movimiento humano que logra un rendimiento de vanguardia en métricas de precisión tanto para los conjuntos de datos Human3.6M como AMASS. Utiliza espacios latentes de comportamiento y modelos de difusión latente para generar predicciones diversas y adaptadas al contexto. La capacidad del método para capturar y transferir comportamientos de una secuencia a otra lo hace robusto frente a cambios de dominio y mejora las capacidades de generalización. Además, la evaluación cualitativa muestra que las predicciones de BeLFusion son más realistas que otros métodos de vanguardia. Ofrece una solución prometedora para la predicción del movimiento humano, con aplicaciones potenciales en animación, realidad virtual y robótica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce Cursive Un Marco de Inteligencia Artificial Universal e Intuitivo para Interactuar con LLMs

En el ámbito de la interfaz con los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés), los desarrolladores ...

Inteligencia Artificial

Los repetidores cuánticos utilizan defectos en el diamante para interconectar sistemas cuánticos

Ahora los científicos están aprovechando los defectos en los diamantes para construir repetidores cuánticos.

Inteligencia Artificial

Mistral AI presenta Mixtral 8x7B un potente modelo disperso de mezcla de expertos

En un movimiento hacia el avance de la inteligencia artificial, Mistral AI, pionero en la entrega de modelos abiertos...

Inteligencia Artificial

Más allá de los límites humanos El surgimiento de la SuperInteligencia

De ANI a AGI y más allá Descifrando el camino evolutivo de la IA.

Inteligencia Artificial

Análisis y optimización del rendimiento del modelo PyTorch - Parte 3

Esta es la tercera parte de una serie de publicaciones sobre el tema de analizar y optimizar modelos de PyTorch utili...

Inteligencia Artificial

Nueva herramienta de imagen basada en HADAR te permite ver claramente en la oscuridad

Imagina un mundo donde los robots y los vehículos autónomos pueden navegar sin esfuerzo a través de las noches más os...