La arquitectura Transformer de los modelos GPT

La arquitectura Transformer de GPT

Aprende los detalles de la arquitectura Transformer

Foto de fabio en Unsplash

En 2017, los autores de Google publicaron un artículo llamado La atención es todo lo que necesitas, en el cual presentaron la arquitectura Transformer. Esta nueva arquitectura alcanzó un éxito sin precedentes en tareas de traducción de lenguaje, y el artículo rápidamente se convirtió en una lectura esencial para cualquier persona inmersa en el área. Al igual que muchos otros, cuando leí el artículo por primera vez, pude ver el valor de sus ideas innovadoras, pero no me di cuenta de lo disruptivo que sería el artículo para otras áreas bajo el amplio paraguas de la IA. En pocos años, los investigadores adaptaron la arquitectura Transformer a muchas tareas diferentes a la traducción de lenguaje, incluyendo clasificación de imágenes, generación de imágenes y problemas de plegamiento de proteínas. En particular, la arquitectura Transformer revolucionó la generación de texto y allanó el camino para los modelos GPT y el crecimiento exponencial que estamos experimentando actualmente en IA.

Dado lo omnipresentes que son los modelos Transformer en la actualidad, tanto en la industria como en la academia, comprender los detalles de cómo funcionan es una habilidad importante para todo practicante de IA. Este artículo se centrará principalmente en la arquitectura de los modelos GPT, que se construyen utilizando un subconjunto de la arquitectura Transformer original, pero también cubrirá el Transformer original al final. Para el código del modelo, partiré de la implementación más clara que he encontrado para el Transformer original: El Transformer Anotado de la Universidad de Harvard. Mantendré las partes relevantes para un transformer de tipo GPT y eliminaré las partes que no lo son. A lo largo del camino, evitaré realizar cambios innecesarios en el código, para que puedas comparar fácilmente la versión de código similar a GPT con el original y comprender las diferencias.

Este artículo está dirigido a científicos de datos y ingenieros de aprendizaje automático experimentados. En particular, asumo que tienes un buen conocimiento de álgebra tensorial, que has implementado redes neuronales desde cero y que te sientes cómodo con Python. Además, aunque he hecho todo lo posible para que este artículo sea independiente, te resultará más fácil entenderlo si has leído mi artículo anterior sobre Cómo funcionan los modelos GPT.

El código de esta publicación se puede encontrar en el proyecto asociado en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

PyTorchEdge presenta ExecuTorch Potenciando la inferencia en dispositivos móviles y de borde

En un movimiento innovador, PyTorch Edge presentó su nuevo componente, ExecuTorch, una solución de vanguardia que est...

Inteligencia Artificial

Esta semana en IA, 31 de julio de 2023

Esta semana en IA en VoAGI proporciona un resumen semanal de los últimos acontecimientos en el mundo de la Inteligenc...

Inteligencia Artificial

Principales herramientas para simplificar y estandarizar el aprendizaje automático

La inteligencia artificial y el aprendizaje automático son dos líderes innovadores a medida que el mundo se beneficia...

Aprendizaje Automático

Científicos mejoran la detección de delirio utilizando Inteligencia Artificial y electroencefalogramas de respuesta rápida.

Detectar el delirio no es fácil, pero puede tener grandes beneficios: acelerar la atención esencial para los paciente...

Inteligencia Artificial

Conoce SMPLitex un modelo de IA generativo y un conjunto de datos para la estimación de textura humana en 3D a partir de una única imagen.

En el campo en constante evolución de la visión por computadora y los gráficos, un desafío significativo ha sido la c...

Inteligencia Artificial

Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Los modelos de difusión están avanzando rápidamente y facilitando la vida. Desde el Procesamiento del Lenguaje Natura...