La evolución de OpenAI Una carrera hacia GPT5

La evolución de OpenAI hacia GPT5

En el pasado, predecimos GPT5

Introducción

El campo del procesamiento del lenguaje natural (NLP, por sus siglas en inglés) ha presenciado avances significativos en los últimos años, con los modelos generativos pre-entrenados de transformadores (GPT) emergiendo como algunos de los modelos de lenguaje más poderosos. Desde entonces, todas las empresas no tecnológicas han estado esperando subirse al tren para obtener una parte de la acción. Desarrollados por OpenAI, los modelos GPT han revolucionado la forma en que abordamos las tareas de NLP. Esto ha causado una especie de carrera armamentista de IA, donde ahora jugadores como Claude, Anthropic, Bard, Apple y muchos otros modelos grandes como Falcon, Orca, MPT, LLaMa y todas sus variantes se unieron con sus mini-ametralladoras. Este artículo explora el viaje evolutivo de los modelos GPT, desde su inicio con GPT-1 hasta el vanguardista GPT-4, abarcando hitos importantes, avances técnicos y aplicaciones. Este artículo también analiza un poco las finanzas de la empresa a lo largo del tiempo, los cambios en los términos y condiciones, e incluso el impacto de las regulaciones.

Comencemos con las cosas técnicas “más simples” primero

GPT-1: El Génesis

GPT-1, lanzado en junio de 2018, fue un modelo debut. Se construyó sobre la arquitectura Transformer introducida por Vaswani et al. en 2017. El famoso artículo “Attention is all you need” se puede encontrar aquí: https://arxiv.org/abs/1706.03762. Fue una forma revolucionaria de convertir el texto en embeddings (representaciones numéricas del texto) que mantenían la atención en lo que sucedía antes en el texto de una manera mucho más profunda. El mecanismo de auto-atención del Transformer permite que el modelo procese eficazmente dependencias a largo plazo en el texto, lo que lo hace altamente adecuado para tareas de NLP.

GPT-1 tenía (solo) 117 millones de parámetros, lo que lo convertía en un formidable modelo de lenguaje en ese momento. Para la base de usuarios casuales, era en gran medida irrelevante debido a las limitaciones. Por ejemplo, el modelo era propenso a generar texto repetitivo, especialmente cuando se le daban indicaciones fuera del alcance de sus datos de entrenamiento. También fallaba en razonar sobre múltiples turnos de diálogo y no podía seguir dependencias a largo plazo en el texto. Además, su cohesión y fluidez se limitaban solo a secuencias de texto más cortas, y los pasajes más largos carecerían de cohesión. Era todo un festín para los nerds.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Chattanooga siembra semillas cuánticas.

Chattanooga, TN, abrirá la primera red cuántica disponible comercialmente en los Estados Unidos a finales del próximo...

Ciencias de la Computación

Prodigio de preadolescencia se gradúa de la Universidad de Santa Clara.

Kairan Quazif, de 14 años, es la persona más joven en graduarse de la Universidad de Santa Clara en California, habie...

Ciencias de la Computación

El nuevo profesor de Ciencias de la Computación de Harvard es un chatbot.

Los estudiantes inscritos en el curso insignia de CS50 de la universidad tendrán como profesor de Inteligencia Artifi...

Inteligencia Artificial

Libre de Limitaciones La Validación de las Alucinaciones de la Máquina en el MoMA

El científico de datos principal en Refik Anadol Studio, Christian Burke, relata su experiencia trabajando en la exhi...

Inteligencia Artificial

Después de los comentaristas, la IA podría reemplazar a los jueces de línea en Wimbledon

Wimbledon, conocido por sus ricas tradiciones y prestigiosos partidos de tenis, está contemplando un cambio significa...