¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce ‘Spatial Functa’, donde desde los datos hasta la Functa se tratan como uno solo.

La investigación de IA introduce 'Spatial Functa', donde los datos y la Functa se tratan como uno solo, explicando por qué el aprendizaje profundo se realiza siempre en datos de matriz.

Las representaciones neurales implícitas (INRs) o campos neurales son redes neuronales basadas en coordenadas que representan un campo, como una escena en 3D, mapeando coordenadas en 3D a valores de color y densidad en el espacio 3D. Recientemente, los campos neurales han ganado mucha atención en la visión por computadora como un medio para representar señales como imágenes, formas/escenas en 3D, películas, música, imágenes médicas y datos meteorológicos.

En lugar de utilizar el enfoque tradicional de procesar representaciones en forma de matrices como píxeles, trabajos recientes han propuesto un marco llamado functa para realizar aprendizaje profundo directamente en estas representaciones de campos. Rendimiento bien en muchas áreas de investigación, incluyendo generación, inferencia y clasificación. Van desde imágenes hasta vóxeles, datos climáticos y escenas en 3D, pero típicamente solo funcionan con conjuntos de datos pequeños o simples como CelebA-HQ 64 64 o ShapeNet.

El trabajo previo de functa demostró que el aprendizaje profundo en campos neurales es posible para muchas modalidades diferentes, incluso con conjuntos de datos relativamente pequeños. Sin embargo, el método tuvo un rendimiento deficiente en las tareas de clasificación y generación de CIFAR-10. Esto fue sorprendente para los investigadores porque las representaciones de campos neurales de CIFAR-10 eran tan precisas que contenían todos los datos necesarios para completar las tareas posteriores.

Un nuevo estudio realizado por DeepMind y la Universidad de Haifa presenta una estrategia para ampliar la aplicabilidad de functa a conjuntos de datos más amplios e intrincados. Primero demuestran que los resultados de functa reportados en CelebA-HQ se pueden replicar utilizando su metodología. Luego lo aplican a tareas posteriores en CIFAR-10, donde los resultados en clasificación y generación son sorprendentemente pobres.

Como una extensión de functa, functa espacial reemplaza los vectores latentes planos con representaciones de variables latentes ordenadas espacialmente. Como resultado, las características en cada índice espacial pueden recopilar información específica de esa ubicación en lugar de recopilar datos de todas las ubicaciones posibles. Este pequeño ajuste permite el uso de arquitecturas más sofisticadas para resolver tareas posteriores, como Transformers con codificaciones posicionales y UNets, cuyos sesgos inductivos son adecuados para datos organizados espacialmente.

Esto permite que el marco functa se adapte a conjuntos de datos complejos como ImageNet-1k en una resolución de 256 256. Los hallazgos también muestran que las limitaciones observadas en la clasificación/generación de CIFAR-10 se resuelven mediante functa espacial. Los resultados en clasificación están a la par con ViTs y en producción de imágenes están a la par con Latent Diffusion.

El equipo cree que el marco functa brillará a gran escala en estas modalidades de mayor dimensión porque los campos neurales capturan la gran cantidad de información redundante presente en las representaciones en forma de matriz de estas modalidades de manera mucho más eficiente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Vidrio de grado óptico impreso en 3D a escala nanométrica.

Los ingenieros han impreso en tres dimensiones vidrio de calidad óptica a escala nanométrica a baja temperatura utili...

Inteligencia Artificial

Explicación intuitiva de los multiplicadores de Lagrange, las condiciones KKT y la dualidad

En esta historia, exploraremos una comprensión clara e perspicaz de tres conceptos relacionados en la optimización ma...

Inteligencia Artificial

Lo que me han enseñado más de 50 entrevistas de Machine Learning (como entrevistador)

Si pensabas que enfrentar una entrevista técnica es difícil, intenta conducir una entrevista. No estoy hablando de lo...

Inteligencia Artificial

Colaboración entre humanos y IA

Al explorar la relación entre la IA y la inteligencia humana, la reciente aparición de GenAI plantea preguntas sobre ...

Inteligencia Artificial

Tu guía para AI y ML generativos en AWS reInvent 2023

Sí, la temporada de AWS reInvent está sobre nosotros y como siempre, ¡el lugar para estar es Las Vegas! Marcaste tus ...