Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video, una herramienta de IA que usa datos de fMRI para recrear imágenes de video.

Comprender la cognición humana ha hecho que la reconstrucción de la visión humana a partir de procesos cerebrales sea intrigante, especialmente cuando se emplean tecnologías no invasivas como la Resonancia Magnética Funcional (fMRI, por sus siglas en inglés). Se ha avanzado mucho en la recuperación de imágenes fijas a partir de grabaciones cerebrales no invasivas, pero no tanto en cuanto a experiencias visuales continuas como películas.

Aunque las tecnologías no invasivas solo recopilan una cantidad limitada de datos debido a que son menos robustas y más vulnerables a influencias externas como el ruido. Además, recopilar datos de neuroimagen es un proceso que consume mucho tiempo y costoso.

Se ha avanzado a pesar de estos desafíos, especialmente en el aprendizaje de características fMRI útiles con pares de anotaciones fMRI dispersas. A diferencia de las imágenes estáticas, la experiencia visual humana es un flujo continuo y cambiante de paisajes, movimientos y objetos. Debido a que la fMRI mide las señales dependientes del nivel de oxigenación de la sangre (BOLD, por sus siglas en inglés) y toma imágenes de la actividad cerebral cada pocos segundos, puede resultar difícil restaurar la experiencia visual dinámica. Cada lectura de fMRI puede considerarse una “media” de la actividad cerebral durante el escaneo. Por el contrario, la frecuencia de cuadros de un video estándar es de 30 cuadros por segundo (FPS, por sus siglas en inglés). En el tiempo que se tarda en adquirir un cuadro de fMRI, se pueden mostrar 60 cuadros de video como estímulos visuales, lo que potencialmente expone al sujeto a una amplia gama de objetos, acciones y configuraciones. Por lo tanto, recuperar películas a una frecuencia de cuadros significativamente mayor que la resolución temporal de la fMRI mediante decodificación fMRI es un desafío.

Investigadores de la Universidad Nacional de Singapur y la Universidad China de Hong Kong presentaron MinD-Video, una canalización modular de decodificación cerebral que comprende un codificador de fMRI y un modelo de difusión estable mejorado entrenado de forma independiente y luego afinado conjuntamente. El modelo propuesto toma datos del cerebro en etapas, ampliando su conocimiento del campo semántico.

En un principio, el equipo entrena características visuales fMRI genéricas utilizando aprendizaje no supervisado a gran escala y modelado cerebral enmascarado. A continuación, utilizan la multimodalidad del conjunto de datos anotados para destilar características relacionadas con la semántica y emplean el aprendizaje contrastivo para entrenar el codificador de fMRI en el espacio de Preentrenamiento de Lenguaje-Imagen Contrastivo (CLIP, por sus siglas en inglés). Después, se entrena conjuntamente un modelo de difusión estable mejorado, diseñado para la producción de videos utilizando entradas de fMRI, con las características aprendidas para perfeccionarlas.

Los investigadores agregaron enfoque cercano al modelo de difusión estable para generar videos con escenas dinámicas. También desarrollaron un sistema de guía adversarial para condicionar las exploraciones de fMRI con fines específicos. Se recuperaron videos de alta calidad y su semántica, como movimientos y dinámicas de escenas, fue precisa.

El equipo evaluó los resultados utilizando métricas semánticas y de píxeles a nivel de video y cuadro. Con una precisión del 85% en métricas semánticas y 0.19 en SSIM, este método es un 49% más efectivo que los métodos anteriores más avanzados. Los hallazgos también sugieren que el modelo parece tener plausibilidad biológica e interpretabilidad basada en los resultados del estudio de atención, que mostraron que se mapea en la corteza visual y las redes cognitivas superiores.

Debido a las diferencias individuales, todavía se está estudiando la capacidad de la técnica propuesta para generalizarse en sujetos diferentes. Se utiliza menos del 10% de los voxels corticales en este método para las reconstrucciones, mientras que el potencial completo de los datos cerebrales totales aún no se ha aprovechado. Los investigadores creen que a medida que se construyan modelos más complejos, es probable que esta área encuentre utilidad en campos como la neurociencia y la IBC.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Los Taxis Dron hacen su primera prueba en Israel.

Israel ha comenzado vuelos de prueba de aeronaves autónomas para carga pesada, y eventualmente para transporte de pas...

Inteligencia Artificial

Estos ingeniosos drones pueden unirse en el aire para formar un robot más grande y fuerte

Investigadores de la Universidad de Tokio en Japón han desarrollado drones que pueden ensamblar y desmontar en pleno ...

Inteligencia Artificial

Esta investigación de IA comparte una visión general exhaustiva de los modelos de lenguaje grandes (LLM) en grafos.

Los conocidos Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como GPT, BERT, PaLM y LLaMA han logrado g...

Inteligencia Artificial

Entendiendo Flash-Atención y Flash-Atención-2 El camino para ampliar la longitud del contexto de los modelos de lenguaje

Escalar el contexto de los grandes modelos de lenguaje (LLMs) sigue siendo uno de los mayores desafíos para ampliar e...

Inteligencia Artificial

¿Puede un modelo de IA dominar todas las tareas de audio? Conoce UniAudio un nuevo sistema universal de generación de audio

Un aspecto clave de la inteligencia artificial generativa es la generación de audio. En los últimos años, la populari...

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

En el paisaje en constante evolución de la tecnología, la Inteligencia Artificial (IA) se erige como una frontera mon...