No tan grandes modelos de lenguaje los buenos datos derrocan al gigante

Los datos derrocan al gigante

(Imagen generada por DALL·E)

Cómo crear un modelo de lenguaje de tamaño millonario que supere a uno de tamaño billonario

En este artículo, veremos cómo los Modelos de Lenguaje (LM) pueden enfocarse en una mejor estrategia de datos y entrenamiento en lugar de simplemente aumentar su tamaño para lograr resultados similares a los de un modelo de lenguaje de tamaño billonario (a veces incluso mejores) y cómo las personas ya lo están haciendo de manera exitosa y democrática.

Los Modelos de Lenguaje de Gran Tamaño (LLM) han evolucionado significativamente. Tienen características notables, desde generar texto similar al humano hasta comprender contextos complejos. Si bien gran parte de la emoción inicial giraba en torno a modelos con un número masivo de parámetros, los avances recientes sugieren que el tamaño no es lo único que importa. Últimamente, ha surgido un nuevo concepto llamado Modelos de Lenguaje Pequeños (SLM) con la motivación de desarrollar modelos de lenguaje más inteligentemente.

El auge de los modelos grandes

A medida que los LLM ingresaron al escenario, la narrativa era sencilla: más grande es mejor. Se espera que los modelos con más parámetros comprendan mejor el contexto, cometan menos errores y brinden mejores respuestas. Pero a medida que los modelos crecían, también crecía su necesidad de recursos computacionales. Entrenar a estos gigantes se volvió una tarea costosa, que no todos están dispuestos (ni pueden) pagar.

Un énfasis en la calidad y eficiencia

Reconociendo la insostenibilidad y los rendimientos decrecientes de simplemente agregar más parámetros, los investigadores comenzaron a replantear estrategias. En lugar de simplemente gastar dinero en la nube (agregando mil millones más de parámetros), algunos investigadores pasaron a utilizar mejores datos y estrategias de entrenamiento más eficientes. La idea es elegante: es posible que un modelo más pequeño pero bien entrenado supere a un modelo más grande pero mal entrenado. Pero, ¿es posible?

Chinchilla y el punto óptimo para el entrenamiento de LLMs

El “Documento Chinchilla” [1], una contribución significativa al campo, ofrece ideas intrigantes sobre el entrenamiento de LLMs. Los experimentos parecen indicar que existe un “punto óptimo” al entrenar LLMs. Más allá de este punto, agregar más recursos de entrenamiento en forma de más parámetros no necesariamente resulta en un aumento proporcional en el rendimiento. El documento enfatiza que no solo el tamaño de un modelo define su rendimiento. En cambio, se trata de la calidad de los datos y la cantidad de datos utilizados. Los autores descubrieron que para un entrenamiento óptimo en términos de recursos computacionales, el tamaño del modelo y el número de tokens de entrenamiento deben escalarse por igual: por cada duplicación del tamaño del modelo, también se debe duplicar el número de tokens de entrenamiento.

Lo prueban entrenando a Chinchilla, un modelo de 70 mil millones de parámetros entrenado con 1,4 billones de tokens. A pesar de ser mucho más pequeño, Chinchilla supera a Gopher en casi todas las evaluaciones, incluido el modelado del lenguaje, la respuesta a preguntas, tareas de sentido común, etc.

Tamaño de Chinchilla y tokens de entrenamiento vs. SOTA LLMs. (Fuente: [1])

Incluso con su tamaño reducido, Chinchilla tiene un mejor rendimiento que sus contrapartes SOTA en una variedad de tareas:

Comprensión masiva del lenguaje multitarea (MMLU). Informe de la precisión promedio de 5 disparos en 57 tareas con comparaciones de precisión de modelos y humanos tomadas de [2], y la predicción promedio para la precisión SOTA en junio de 2022/2023 realizada por 73 pronosticadores humanos competitivos en [3]. (Fuente: [1])

La comprensión de lectura y el razonamiento automatizado son tareas estándar en las que normalmente se pone a prueba un modelo de lenguaje. Prueba la capacidad del modelo para entender el contexto más amplio del texto. En nuestro caso, esto se podría ejemplificar como predecir palabras que solo se podrían esperar si el modelo pudiera entender la relación entre esta palabra y el contexto que la precede (a veces lejos de la posición de esta palabra). Por lo general, se evalúa utilizando referencias y conjuntos de datos como RACE-h, RACE-m [4] y LAMBADA [5]. Chinchilla supera a modelos mucho más grandes incluso en este tipo de tareas difíciles de definir y evaluar.

En la comprensión de lectura, Chinchilla mejora considerablemente el rendimiento en comparación con Gopher. (Fuente: [1])

Y Chinchilla es uno de muchos modelos de lenguaje que muestran resultados prometedores a pesar de no centrarse en aumentar su tamaño.

LLaMA

LLaMA[6] va aún más lejos. Los autores presentan modelos de lenguaje fundamentales más pequeños que van desde 7B hasta 65B de parámetros. Se entrenan con más de 1 billón de tokens utilizando solo datos disponibles públicamente, lo que los hace compatibles con el código abierto.

LLaMA-13B supera al modelo mucho más grande de 175B de parámetros GPT-3 en la mayoría de las referencias, siendo más de 10 veces más pequeño. Los autores argumentan que, dado un nivel de rendimiento objetivo, los modelos más pequeños entrenados durante más tiempo son preferibles a modelos más grandes para un presupuesto informático determinado debido a una mejor eficiencia de inferencia.

Rendimiento sin entrenamiento previo de LLaMA en tareas de razonamiento de sentido común. (Fuente: [6])

Algunos proyectos incluso han logrado ejecutar LLaMA (o más bien una versión de él) en teléfonos inteligentes Android económicos, lo que demuestra aún más que estamos en el camino correcto para democratizar el acceso a modelos de lenguaje de alto rendimiento utilizando recursos informáticos limitados (LLaMA.c [7]).

LLaMA-65B (sé que ya no es tan pequeño, pero aún así…) es competitivo con los modelos actuales de vanguardia como PaLM-540B, que utilizan conjuntos de datos propietarios. Esto indica claramente cómo los buenos datos no solo mejoran el rendimiento de un modelo, sino que también pueden hacerlo más democrático. Un ingeniero de aprendizaje automático no necesitaría presupuestos enormes para obtener un buen entrenamiento del modelo en un buen conjunto de datos.

Los buenos datos superan al Goliat

Reforzando aún más la tesis de que los modelos de lenguaje no necesitan ser gigantescos para rendir bien, TinyStories [8] presenta un conjunto de datos sintéticos de historias que contienen solo palabras que los niños pequeños (hasta cuatro años) pueden entender. Se puede utilizar para entrenar modelos de lenguaje pequeños (SLMs) con menos de 10 millones de parámetros que pueden generar historias de varios párrafos con buena gramática, razonamiento y coherencia. Esto contrasta con trabajos anteriores en los que modelos con más de 125M de parámetros, como GPT-Neo (pequeño) y GPT-2 (pequeño), tenían dificultades para producir un texto coherente.

Un modelo entrenado con TinyStories puede producir resultados comparables a los de un modelo que es dos órdenes de magnitud más grande. (Fuente: [8])

Uno de los aspectos emocionantes de TinyStories es que el propio conjunto de datos fue creado por GPT-3.5 y GPT-4. Los autores también presentan un nuevo paradigma de evaluación de SLM utilizando GPT-4 para “calificar” las historias generadas en dimensiones como la gramática, la trama y la creatividad. Esto supera las limitaciones de las referencias estándar que requieren salidas restringidas.

Conclusión

El recorrido de los modelos de lenguaje muestra una lección fundamental en IA: más grande no siempre es mejor. A medida que la comunidad continúa evolucionando e innovando, se ha llegado a la conclusión de que la eficiencia, la calidad de los datos y las estrategias de entrenamiento optimizadas son la clave del futuro del aprendizaje automático.

Principales conclusiones

  • Chinchilla demuestra que hay un punto óptimo al entrenar LMs en cuanto al número de tokens y la calidad de los datos de entrenamiento utilizados. Es tan importante como (o incluso más) definir el número de parámetros del modelo;
  • LLaMa muestra que resultados similares a los de Chinchilla son alcanzables utilizando solo datos disponibles públicamente, demostrando que esta estrategia está democráticamente disponible;
  • Conjuntos de datos como TinyStories se pueden utilizar para entrenar modelos de lenguaje pequeños (menos de 100 millones) que superan a modelos de tamaño billonario en tareas específicas.

Referencias

[1] Hoffmann, Jordan, et al. “Training compute-optimal large language models.” arXiv preprint arXiv:2203.15556 (2022).

[2] D. Hendrycks, et al. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.03300 (2020).

[3] J. Steinhardt. Actualizaciones y lecciones de la predicción de IA, 2021. URL https://bounded-regret.ghost.io/ai-forecasting/.

[4] Lai, Guokun, et al. “RACE: Conjunto de datos de comprensión de lectura a gran escala de exámenes.” En Actas de la Conferencia sobre Métodos Empíricos en Procesamiento de Lenguaje Natural de 2017, páginas 785–794, Copenhague, Dinamarca. Asociación de Lingüística Computacional.

[5] Paperno et al., 2016 “El conjunto de datos LAMBADA: Predicción de palabras que requiere un amplio contexto discursivo.” arXiv:1606.06031 (2016).

[6] Touvron, Hugo et al. “LLaMA: Modelos de lenguaje de base abierta y eficientes.” ArXiv abs/2302.13971 (2023)

[7] https://github.com/karpathy/llama2.c

[8] Eldan, Ronen y Yuan-Fang Li. “TinyStories: ¿Qué tan pequeños pueden ser los modelos de lenguaje y aún así hablar en inglés coherente?” ArXiv abs/2305.07759 (2023)

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

El Desafío de Ver la Imagen Completa de la Inteligencia Artificial

Cada vez es más difícil tener conversaciones reflexivas sobre el cambiante (y rápidamente creciente) impacto de la IA...

Inteligencia Artificial

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

Con Meta revelando recientemente planes para construir un modelo de chat que competirá con GPT-4, y el lanzamiento de...

Inteligencia Artificial

Un cambio de paradigma en el desarrollo de software los agentes de inteligencia artificial AI de GPTConsole abren nuevos horizontes

En una industria donde el cambio es la única constante, GPTConsole ha presentado un trío de agentes de IA que destaca...

Inteligencia Artificial

Keshav Pingali reconocido con el Premio ACM-IEEE CS Ken Kennedy

El premio se entregará formalmente a Pingali en noviembre en la Conferencia Internacional sobre Computación de Alto R...