Por qué más es más (en Inteligencia Artificial)

Más es más (en IA)

Cómo los Grandes Redes Neuronales Generalizan

Menos es más. – Ludwig Mies van der Rohe Menos es más solo cuando más es demasiado. – Frank Loyd Wright

Las redes neuronales profundas (DNNs) han transformado profundamente el panorama del aprendizaje automático, a menudo convirtiéndose en sinónimo de los campos más amplios de la inteligencia artificial y el aprendizaje automático. Sin embargo, su ascenso habría sido inimaginable sin su cómplice: el descenso de gradiente estocástico (SGD, por sus siglas en inglés).

SGD, junto con sus optimizadores derivados, forma el núcleo de muchos algoritmos de autoaprendizaje. En su esencia, el concepto es sencillo: calcular la pérdida de la tarea utilizando datos de entrenamiento, determinar los gradientes de esta pérdida en relación con sus parámetros, y luego ajustar los parámetros en una dirección que minimice la pérdida.

Suena simple, pero en aplicaciones, ha demostrado ser inmensamente poderoso: SGD puede encontrar soluciones para todo tipo de problemas complejos y datos de entrenamiento, siempre que se utilice en conjunto con una arquitectura suficientemente expresiva. Es especialmente bueno en encontrar conjuntos de parámetros que hagan que la red funcione perfectamente en los datos de entrenamiento, algo llamado el régimen de interpolación. Pero, ¿bajo qué condiciones se cree que las redes neuronales generalizan bien, es decir, que funcionan bien en datos de prueba no vistos?

La búsqueda de generalización está en el corazón del aprendizaje automático. Concebido por DALL-E.

De alguna manera, es casi demasiado poderoso: las habilidades de SGD no se limitan solo a datos de entrenamiento que se espera que conduzcan a una buena generalización. Se ha demostrado, por ejemplo, en este influyente artículo, que SGD puede hacer que una red memorice perfectamente un conjunto de imágenes que fueron etiquetadas aleatoriamente (hay una relación profunda entre la memoria y la generalización de la cual he escrito anteriormente). Aunque esto puede parecer desafiante, dada la falta de correspondencia entre las etiquetas y el contenido de las imágenes, es sorprendentemente sencillo para las redes neuronales entrenadas con SGD. De hecho, no es mucho más desafiante que ajustar datos genuinos.

Esta capacidad indica que las NN, entrenadas con SGD, corren el riesgo de sobreajuste, y medidas para regularizar el sobreajuste, como las normas, la detención temprana y la reducción del tamaño del modelo, se vuelven cruciales para evitarlo.

Desde el punto de vista de la estadística clásica, menos es más, y por lo tanto más es menos, como se resume de manera concisa en…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Diferenciación automática con Python y C++ para el aprendizaje profundo

Esta historia explora la diferenciación automática, una característica de los marcos de trabajo modernos de Deep Lear...

Inteligencia Artificial

Perspectivas de expertos sobre el desarrollo de marcos de IA seguros, confiables y confiables

En consonancia con la reciente Orden Ejecutiva del Presidente Biden que enfatiza la Inteligencia Artificial (IA) segu...

Inteligencia Artificial

Generación mejorada por recuperación (RAG) De la teoría a la implementación de LangChain

Ejemplo de implementación de Generación con Recuperación Aumentada (RAG) en Python con LangChain, OpenAI y Weaviate