¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

¿Qué pasa si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el estado del arte y una fuente de preocupación creciente por el consumo de energía, la velocidad y, por lo tanto, la viabilidad del deep learning a gran escala. Recientemente, investigadores de Cornell hablaron sobre las topologías de los Transformadores, particularmente cómo mejoran drásticamente cuando se escalan a miles de millones o incluso billones de parámetros, lo que lleva a un aumento exponencial en la utilización de la computación de deep learning. Estos Transformers a gran escala son una solución popular pero costosa para muchas tareas porque la eficiencia energética del hardware digital no ha seguido el ritmo de los requisitos de FLOP cada vez mayores de los modelos de deep learning de vanguardia. También tienen un rendimiento cada vez más impresionante en otros ámbitos, como la visión por computadora, los gráficos y los entornos multimodales.

Además, exhiben habilidades de transfer learning, lo que les permite generalizar rápidamente a ciertas actividades, a veces en un entorno de cero entrenamiento adicional. El costo de estos modelos y sus capacidades generales de aprendizaje automático son fuerzas motrices importantes detrás de la creación de aceleradores de hardware para una inferencia efectiva y rápida. El hardware de deep learning se ha desarrollado previamente de manera extensiva en electrónica digital, incluyendo GPUs, chips aceleradores móviles, FPGAs y sistemas de aceleradores dedicados a la inteligencia artificial a gran escala. Se han propuesto redes neuronales ópticas como soluciones que proporcionan una mejor eficiencia y latencia que las implementaciones de redes neuronales en computadoras digitales, entre otras formas. Al mismo tiempo, también hay un interés significativo en la computación analógica.

Aunque estos sistemas analógicos son susceptibles al ruido y al error, las operaciones de las redes neuronales a menudo se pueden realizar ópticamente a un costo mucho menor, siendo el costo principal típicamente el gasto eléctrico asociado con la carga de los pesos y los datos amortizados en operaciones lineales a gran escala. La aceleración de modelos a gran escala como los Transformadores es especialmente prometedora. Teóricamente, la escalabilidad es asintóticamente más eficiente en términos de energía por MAC que los sistemas digitales. Aquí, demuestran cómo los Transformadores aprovechan cada vez más esta escalabilidad. Muestran operaciones de un verdadero Transformer utilizado para el modelado del lenguaje en un sistema experimental basado en un modulador de luz espacial real. Luego utilizaron los resultados para crear una simulación calibrada de un Transformer completo funcionando ópticamente. Esto se hizo para demostrar que los Transformadores pueden funcionar en estos sistemas a pesar de sus características de ruido y error.

En sus simulaciones utilizando pesos y entradas obtenidos de estas pruebas con error sistemático, ruido e imprecisión, descubrieron que los Transformers aún funcionan casi tan bien como los que operan digitalmente. Aquí se presenta un resumen de sus principales contribuciones:

• Crearon reglas de escalado para el rendimiento y los costos totales de energía de los Transformers ópticos en comparación con el tamaño del modelo y el uso de energía óptica. Experimentalmente demostraron que las operaciones lineales en los Transformers se pueden realizar con precisión en hardware óptico real, a pesar de los errores y el ruido.

• Utilizando un diseño basado en sus simulaciones y pruebas, predijeron el consumo de energía de un acelerador de redes neuronales ópticas completo.

• Calcularon que la óptica consume órdenes de magnitud menos energía que los procesadores de vanguardia.

Aunque sus simulaciones y pruebas utilizaron una pieza específica de hardware como ilustración, su enfoque aquí es más amplio. Quieren saber cómo se relacionan la escalabilidad energética óptica y el ruido con la construcción y el rendimiento de los Transformers. Como resultado, casi todas sus conclusiones se aplican en general a los procesadores ópticos lineales, independientemente de los detalles de su implementación de hardware.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

OpenAI está lanzando una versión beta que promete cambiar por completo la forma en que nos comunicamos con esta IA de...

Inteligencia Artificial

Evaluar las solicitudes RAG con las RAGAs

Evaluando los componentes de recuperación y generación de un sistema de generación mejorado con recuperación (RAG) po...

Ciencia de Datos

La guía de campo de datos sintéticos

Si quieres trabajar con datos, ¿cuáles son tus opciones? Aquí tienes una respuesta lo más general posible podrías obt...

Aprendizaje Automático

Aprendizaje Automático en un Espacio No Euclidiano

Antes de continuar con esta serie sobre geometría no euclidiana aplicada al Aprendizaje Automático (AA), tuve que res...

Inteligencia Artificial

Persistent Systems moldea el futuro de la ingeniería de software con Amazon CodeWhisperer

Persistent Systems, un proveedor global de ingeniería digital, ha realizado varios pilotos y estudios formales con Am...

Inteligencia Artificial

Regresando a lo humano El viaje de la IA desde el código hasta los abrazos

En el panorama en constante evolución de la inteligencia artificial (IA), nos encontramos en una encrucijada que requ...