Todo lo que debes saber sobre la evaluación de modelos de lenguaje grandes

Evaluación de modelos de lenguaje grandes

Modelos de Lenguaje Abiertos

De la perplejidad a la medición de la inteligencia general

Imagen generada por el autor usando Stable Diffusion.

A medida que los modelos de lenguaje de código abierto están cada vez más disponibles, es fácil perderse entre todas las opciones.

¿Cómo determinamos su rendimiento y los comparamos? ¿Y cómo podemos afirmar con confianza que un modelo es mejor que otro?

Este artículo proporciona algunas respuestas al presentar métricas de entrenamiento y evaluación, y puntos de referencia generales y específicos para tener una imagen clara del rendimiento de su modelo.

Si te lo perdiste, echa un vistazo al primer artículo de la serie Modelos de Lenguaje Abiertos:

Una introducción suave a los Modelos de Lenguaje Grandes de Código Abierto

Por qué todos hablan de Llamas, Alpacas, Halcones y otros animales

towardsdatascience.com

Perplejidad

Los modelos de lenguaje definen una distribución de probabilidad sobre un vocabulario de palabras para seleccionar la palabra siguiente más probable en una secuencia. Dado un texto, un modelo de lenguaje asigna una probabilidad a cada palabra en el idioma, y se selecciona la más probable.

La perplejidad mide qué tan bien puede predecir un modelo de lenguaje la siguiente palabra en una secuencia dada. Como métrica de entrenamiento, muestra qué tan bien los modelos aprendieron su conjunto de entrenamiento.

No entraremos en detalles matemáticos, pero intuitivamente, minimizar la perplejidad significa maximizar la probabilidad predicha.

En otras palabras, el mejor modelo es aquel que no se sorprende cuando ve el nuevo texto porque lo está esperando, lo que significa que ya predijo bien qué palabras vendrán a continuación en la secuencia.

Aunque la perplejidad es útil, no considera el significado detrás de las palabras ni el contexto en el que se usan, y está influenciada por cómo tokenizamos nuestros datos: diferentes modelos de lenguaje con vocabularios y técnicas de tokenización variables pueden producir puntuaciones de perplejidad variables, lo que hace que las comparaciones directas sean menos significativas.

La perplejidad es una métrica útil pero limitada. La usamos principalmente para seguir el progreso durante el entrenamiento de un modelo o para comparar…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Principales extensiones de Chrome con inteligencia artificial AI

La idea de una máquina que escriba por ti ha pasado de ser ciencia ficción a realidad gracias a los avances en la tec...

Inteligencia Artificial

Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.

Casi todos los objetivos descritos en lenguaje natural pueden optimizarse mediante la consulta a un modelo de lenguaj...

Inteligencia Artificial

Promocionar canalizaciones en una configuración multiambiente utilizando Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub y Jenkins CI/CD

La creación de una plataforma de operaciones de machine learning (MLOps) en el ámbito en constante evolución de la in...

Ciencia de Datos

Los investigadores del MIT hacen que los modelos de lenguaje sean autoaprendices escalables.

Los científicos utilizaron un conjunto de datos de inferencia lógica basado en lenguaje natural para crear modelos de...

Inteligencia Artificial

Centros de datos en riesgo debido a fallas en el software de gestión de energía

Los investigadores de ciberseguridad en Trellix han identificado vulnerabilidades en aplicaciones comúnmente utilizad...