Explorando la afinación de instrucciones en modelos de lenguaje conoce Tülu, una suite de modelos de lenguaje grandes (LLMs) afinados.

Tülu es una suite de LLMs afinados para explorar la afinación de instrucciones en modelos de lenguaje.

El famoso ChatGPT desarrollado por OpenAI es uno de los mejores ejemplos de Modelos de Lenguaje Grande (LLMs) que se han lanzado recientemente. LLMs como ChatGPT han causado sensación en el mundo con su potencial incomparable y su capacidad para imitar a los humanos en la realización de diversas tareas. Estos modelos han adoptado principalmente el ajuste fino de instrucciones para ayudar a que el modelo se acostumbre a realizar algunas tareas comunes. Este enfoque implica entrenar los modelos en pares de entrada y salida supervisados, que se pueden derivar de otros modelos. 

Se están utilizando varios conjuntos de datos abiertos de seguimiento de instrucciones para los avances actuales en modelos de lenguaje con ajuste de instrucciones. Aunque los modelos abiertos pueden competir con los modelos propietarios de última generación, estas afirmaciones a menudo solo están respaldadas por una evaluación limitada, lo que dificulta la comparación en profundidad de los modelos y la determinación del valor de diversos recursos. Para abordar esto, un equipo de investigadores del Instituto Allen para la IA y la Universidad de Washington ha presentado una amplia gama de modelos ajustados a instrucciones con tamaños de parámetros que van desde 6,7 mil millones hasta 65 mil millones.

Estos modelos se entrenan en 12 conjuntos de datos de instrucciones que van desde conjuntos de datos sintéticos y destilados como Alpaca hasta conjuntos de datos seleccionados manualmente como OpenAssistant. Los modelos se prueban cuidadosamente en una variedad de áreas, incluyendo razonamiento, multilingüismo, codificación, conocimiento factual y habilidades de seguimiento de instrucciones abiertas. Para proporcionar un estudio exhaustivo, la evaluación se lleva a cabo utilizando una colección de métricas automáticas, basadas en modelos y humanas.

El equipo también ha presentado TÜLU, que es un conjunto de grandes modelos de lenguaje ajustados a instrucciones a partir de una combinación de fuentes de datos. Estos modelos se ajustan finamente utilizando una combinación de recursos abiertos de alta calidad. El equipo ha examinado el rendimiento de varios conjuntos de datos de ajuste de instrucciones y su efecto en habilidades específicas a través de diversas evaluaciones. Descubrieron que diferentes conjuntos de datos pueden revelar o mejorar habilidades específicas y que ni un solo conjunto de datos ni un conjunto de conjuntos de datos ofrece el mejor rendimiento en todas las evaluaciones.

El equipo menciona que un hallazgo interesante de la investigación es que las evaluaciones basadas en referencias fallan en capturar las diferencias en las capacidades del modelo que se muestran mediante comparaciones de modelos. El mejor modelo en cualquier evaluación dada promedió el 83% del rendimiento de ChatGPT y el 68% del rendimiento de GPT-4. El equipo afirma que TÜLU, con 65 mil millones de parámetros, es la variante ajustada a instrucciones de mayor tamaño lanzada públicamente, entrenada en siete conjuntos de datos populares disponibles. Ha logrado el mejor rendimiento promedio mientras se mantiene dentro del 15% del modelo de mejor rendimiento en cada tarea individual.

Algunas de las contribuciones clave mencionadas en el documento de investigación son:

  1. Los conjuntos de datos de instrucciones específicos de dominio y habilidades son muy exitosos para mejorar el rendimiento del modelo.
  1. Los modelos de base más grandes o pre-entrenados durante más tiempo tienen un rendimiento consistente después del ajuste de instrucciones.
  1. El mejor rendimiento promedio en las evaluaciones se logró con TÜLU, el LLaMa ajustado a instrucciones en una mezcla de conjuntos de datos de instrucciones existentes, aunque no es el mejor al comparar diferentes configuraciones de evaluación por separado.
  1. Incluso un modelo muy grande de 65 mil millones de parámetros que se ha optimizado en una gran variedad de conjuntos de datos de instrucciones no alcanza a ChatGPT, aunque supera a modelos más pequeños comparables por un margen significativo.
  1. Fuertes correlaciones entre la evaluación de preferencia basada en modelos sobre seguimiento de instrucciones abiertas y el número típico de tokens únicos producidos por un modelo indican que la evaluación de preferencia basada en modelos contiene sesgos que pueden enmascarar las variaciones en las capacidades del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Snowflake vs. Data Bricks Compitiendo para crear la mejor plataforma de datos en la nube

¿Quieres entrar en la carrera por la mejor plataforma de datos en la nube? Echa un vistazo a la diferencia entre Snow...

Inteligencia Artificial

Amplios horizontes La presentación de NVIDIA señala el camino hacia nuevos avances en Inteligencia Artificial

Los avances dramáticos en el rendimiento del hardware han dado lugar a la IA generativa y a una rica variedad de idea...

Aprendizaje Automático

Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.

Con los recientes avances tecnológicos en inteligencia artificial, los Modelos de Lenguaje Grande, o LLMs en resumen,...

Inteligencia Artificial

La amenaza de la desinformación climática propagada por la tecnología de IA generativa

Explora cómo la IA generativa puede propagar información errónea sobre el clima y aprende estrategias efectivas para ...

Inteligencia Artificial

La IA puede detectar los primeros signos de un tsunami a partir de las ondas de choque atmosféricas

Los investigadores descubrieron que los modelos de inteligencia artificial (IA) disponibles en el mercado pueden dete...