Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video, una herramienta de IA que usa datos de fMRI para recrear imágenes de video.

Comprender la cognición humana ha hecho que la reconstrucción de la visión humana a partir de procesos cerebrales sea intrigante, especialmente cuando se emplean tecnologías no invasivas como la Resonancia Magnética Funcional (fMRI, por sus siglas en inglés). Se ha avanzado mucho en la recuperación de imágenes fijas a partir de grabaciones cerebrales no invasivas, pero no tanto en cuanto a experiencias visuales continuas como películas.

Aunque las tecnologías no invasivas solo recopilan una cantidad limitada de datos debido a que son menos robustas y más vulnerables a influencias externas como el ruido. Además, recopilar datos de neuroimagen es un proceso que consume mucho tiempo y costoso.

Se ha avanzado a pesar de estos desafíos, especialmente en el aprendizaje de características fMRI útiles con pares de anotaciones fMRI dispersas. A diferencia de las imágenes estáticas, la experiencia visual humana es un flujo continuo y cambiante de paisajes, movimientos y objetos. Debido a que la fMRI mide las señales dependientes del nivel de oxigenación de la sangre (BOLD, por sus siglas en inglés) y toma imágenes de la actividad cerebral cada pocos segundos, puede resultar difícil restaurar la experiencia visual dinámica. Cada lectura de fMRI puede considerarse una “media” de la actividad cerebral durante el escaneo. Por el contrario, la frecuencia de cuadros de un video estándar es de 30 cuadros por segundo (FPS, por sus siglas en inglés). En el tiempo que se tarda en adquirir un cuadro de fMRI, se pueden mostrar 60 cuadros de video como estímulos visuales, lo que potencialmente expone al sujeto a una amplia gama de objetos, acciones y configuraciones. Por lo tanto, recuperar películas a una frecuencia de cuadros significativamente mayor que la resolución temporal de la fMRI mediante decodificación fMRI es un desafío.

Investigadores de la Universidad Nacional de Singapur y la Universidad China de Hong Kong presentaron MinD-Video, una canalización modular de decodificación cerebral que comprende un codificador de fMRI y un modelo de difusión estable mejorado entrenado de forma independiente y luego afinado conjuntamente. El modelo propuesto toma datos del cerebro en etapas, ampliando su conocimiento del campo semántico.

En un principio, el equipo entrena características visuales fMRI genéricas utilizando aprendizaje no supervisado a gran escala y modelado cerebral enmascarado. A continuación, utilizan la multimodalidad del conjunto de datos anotados para destilar características relacionadas con la semántica y emplean el aprendizaje contrastivo para entrenar el codificador de fMRI en el espacio de Preentrenamiento de Lenguaje-Imagen Contrastivo (CLIP, por sus siglas en inglés). Después, se entrena conjuntamente un modelo de difusión estable mejorado, diseñado para la producción de videos utilizando entradas de fMRI, con las características aprendidas para perfeccionarlas.

Los investigadores agregaron enfoque cercano al modelo de difusión estable para generar videos con escenas dinámicas. También desarrollaron un sistema de guía adversarial para condicionar las exploraciones de fMRI con fines específicos. Se recuperaron videos de alta calidad y su semántica, como movimientos y dinámicas de escenas, fue precisa.

El equipo evaluó los resultados utilizando métricas semánticas y de píxeles a nivel de video y cuadro. Con una precisión del 85% en métricas semánticas y 0.19 en SSIM, este método es un 49% más efectivo que los métodos anteriores más avanzados. Los hallazgos también sugieren que el modelo parece tener plausibilidad biológica e interpretabilidad basada en los resultados del estudio de atención, que mostraron que se mapea en la corteza visual y las redes cognitivas superiores.

Debido a las diferencias individuales, todavía se está estudiando la capacidad de la técnica propuesta para generalizarse en sujetos diferentes. Se utiliza menos del 10% de los voxels corticales en este método para las reconstrucciones, mientras que el potencial completo de los datos cerebrales totales aún no se ha aprovechado. Los investigadores creen que a medida que se construyan modelos más complejos, es probable que esta área encuentre utilidad en campos como la neurociencia y la IBC.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Mistral AI presenta Mixtral 8x7B un potente modelo disperso de mezcla de expertos

En un movimiento hacia el avance de la inteligencia artificial, Mistral AI, pionero en la entrega de modelos abiertos...

Ciencia de Datos

Conoce AnythingLLM Una Aplicación Full-Stack Que Transforma Tu Contenido en Datos Enriquecidos para Mejorar las Interacciones con Modelos de Lenguaje Amplio (LLMs)

Desde el lanzamiento del revolucionario ChatGPT de OpenAI, el número de proyectos relacionados con la IA, especialmen...

Inteligencia Artificial

Un caso que rima con Microsoft

La lección predominante del caso de Microsoft, según los abogados antimonopolio, es que el escrutinio de Washington p...

Inteligencia Artificial

Las mejores herramientas de Data Warehousing en 2023

Un almacén de datos es un sistema de gestión de datos para informes, análisis y almacenamiento de datos. Es un almacé...

Inteligencia Artificial

Cómo utilizar ChatGPT en Google Sheets

Introducción Google Sheets es una aplicación amplia y ampliamente conocida de hojas de cálculo. A lo largo de los año...