Conoce a Skill-it un marco de habilidades impulsado por datos para comprender y entrenar modelos de lenguaje

Conoce a Skill-it, un marco de habilidades basado en datos para entrenar modelos de lenguaje.

Los modelos de lenguaje grandes (LM) son notablemente capaces de crear código fuente, crear obras de arte originales y conversar con personas. Los datos utilizados para entrenar los modelos los hacen capaces de llevar a cabo estas tareas. Al mejorar estos datos de entrenamiento, ciertas habilidades pueden ser desbloqueadas de forma natural. Dado una cantidad limitada de tokens de entrenamiento, no está claro cómo elegir datos de un corpus enorme para estas capacidades, ya que la mayoría de los algoritmos de selección de datos de los modelos de lenguaje de última generación existentes se basan en heurísticas para filtrar y combinar diversos conjuntos de datos. Se necesita un marco formal para describir cómo los datos afectan las capacidades del modelo y cómo utilizar estos datos para mejorar el rendimiento del LM.

Se inspiraron en cómo las personas aprenden para crear este marco. La noción de habilidades que comprenden una jerarquía de aprendizaje es un tema conocido en la literatura educativa. Por ejemplo, la investigación reveló que presentar conceptos matemáticos y científicos en un orden específico ayudaba a los alumnos a comprenderlos más rápidamente. Quieren saber cuánto caracterizan el entrenamiento del LM los ordenamientos basados en habilidades comparables. Si existen tales ordenamientos, podrían ofrecer un marco para el entrenamiento eficiente de datos y una comprensión más profunda de los LMs.

Figura 1: Hipotetizan que los LMs aprenden habilidades mejor en un cierto orden y que esto puede ayudarles a comprender y enseñar mejor a los LMs. Esta hipótesis se inspiró en cómo los humanos adquieren información. Demuestran que estos conjuntos de habilidades ordenadas existen en los datos reales, lo que permite aprender habilidades con menos datos si se entrenan las habilidades necesarias. Luego lanzaron SKILL-IT, un sistema de selección de datos en línea que aprovecha el ordenamiento de habilidades para adquirir habilidades rápidamente.

Investigan si el concepto de ordenamiento de habilidades puede ayudar a desarrollar un marco que relacione los datos con el entrenamiento y el comportamiento del LM. Para hacer esto, primero se deben resolver dos problemas relacionados con la interacción de los datos y las habilidades. Primero se debe definir y probar una definición operativa de habilidad del LM y de ordenamiento de habilidades utilizando datos para demostrar que existen conjuntos de habilidades que el LM aprende de manera más efectiva en una secuencia determinada. En sus primeras investigaciones, analizaron si agrupaciones semánticas de datos, como propiedades de metadatos o clústeres de incrustación, podrían representar adecuadamente una habilidad y describir el proceso de aprendizaje de los modelos.

Por ejemplo, dividieron el conjunto de datos de Alpaca por tipo de instrucción para capturar la diversidad del conjunto de datos. Sin embargo, descubrieron que el muestreo basado en el tipo de instrucción y el muestreo aleatorio producían modelos con un rendimiento similar, lo que indica que no cualquier idea existente de grupos de datos puede caracterizar habilidades. Para mejorar realmente el entrenamiento del modelo, se deben construir distribuciones de muestra utilizando estas definiciones de habilidades. Enumeran las dificultades que encuentran las técnicas de selección ingenuas para crear criterios para un algoritmo de selección de datos que aprenda habilidades de manera efectiva. Debido al desequilibrio y el orden de las habilidades que no se consideran en la técnica tradicional de muestreo aleatorio uniforme en los datos, las habilidades de aprendizaje no se optimizan.

Por ejemplo, el español y la generación de preguntas (QG) comprenden el 5% y el 4% del conjunto de datos de Natural Instructions, respectivamente, aunque el QG en español solo representa el 0.2%. Es posible que las habilidades estén distribuidas de manera desigual en los datos y que las habilidades más complejas sean poco comunes. Además, el muestreo aleatorio no ofrece una forma de tener en cuenta una secuencia de entrenamiento específica o una estructura de dependencia de habilidades. Las estrategias más avanzadas, como el aprendizaje curricular, tienen en cuenta el orden a nivel de muestra, pero no las habilidades ni sus dependencias. Estos problemas de desequilibrio y orden deben ser considerados por su marco objetivo. Un sistema basado en habilidades, como una unidad de comportamiento que un modelo puede aprender utilizando una porción asociada de datos, definen una habilidad.

Un conjunto ordenado de habilidades es un grupo de habilidades con un gráfico de habilidades dirigido que no está completo ni vacío, donde existe un borde desde una habilidad previa a una habilidad si el tiempo de entrenamiento requerido para aprender la habilidad se puede acortar si también se aprende la habilidad previa (Figura 1 izquierda, centro). Utilizando esta definición operativa, demuestran la existencia de conjuntos de habilidades ordenadas en conjuntos de datos artificiales y reales. Curiosamente, estos conjuntos de habilidades ordenadas revelan que aprender una habilidad rápidamente requiere entrenar tanto esa habilidad como las habilidades necesarias, en lugar de solo esa habilidad por sí sola.

Según sus observaciones, cuando el modelo aprende adicionalmente QG en inglés y español, pueden obtener una disminución del 4% en la pérdida de validación en comparación con el entrenamiento solo en QG español, dentro de un presupuesto total de pasos de entrenamiento. Luego, utilizando su teoría, proporcionan dos enfoques para seleccionar datos de manera que el modelo aprenda habilidades más rápidamente: muestreo estratificado por habilidad y una generalización en línea, SKILL-IT. Investigadores de la Universidad de Stanford, la Universidad de Wisconsin-Madison, Together AI y la Universidad de Chicago proponen la selección estratificada por habilidad, un método directo que nos permite optimizar explícitamente el aprendizaje de habilidades al muestrear uniformemente habilidades relevantes (como una habilidad objetivo y sus habilidades necesarias en la afinación) para resolver el problema de habilidades distribuidas de manera desigual en los conjuntos de datos.

Dado que el muestreo estratificado por habilidad es estático y no considera el orden a medida que avanza el entrenamiento, se sobremuestrean habilidades que podrían haberse adquirido antes en el proceso de entrenamiento. Proponen SKILL-IT, una técnica de selección de datos en línea para seleccionar combinaciones de habilidades de entrenamiento, para abordar este problema al dar mayor peso a las habilidades que aún no se han aprendido o a las habilidades prerrequisito influyentes (Figura 1, derecha). Suponiendo un presupuesto de datos fijo y un grafo de habilidades, SKILL-IT se desarrolla a partir de un problema de optimización en línea sobre las habilidades de entrenamiento para minimizar la pérdida en un conjunto de habilidades de evaluación.

Basado en la relación entre el conjunto de habilidades de evaluación y el conjunto de habilidades de entrenamiento, SKILL-IT se puede modificar para el preentrenamiento continuo, la afinación fina o la evaluación fuera del dominio. Se inspiró en el descenso de espejo en línea. En conjuntos de datos artificiales y reales, evalúan SKILL-IT en dos escalas de modelos: 125M y 1.3B de parámetros. En la simulación LEGO, demostraron una mejora de 35.8 puntos en precisión para el escenario de preentrenamiento continuo en comparación con la selección aleatoria de datos de entrenamiento y el aprendizaje curricular. Dado el mismo presupuesto de entrenamiento total, muestran que su algoritmo, en una combinación de habilidades, puede lograr una disminución de hasta el 13.6% en la pérdida en comparación con el entrenamiento exclusivo en esa habilidad en el escenario de afinación fina.

Su algoritmo puede lograr la pérdida más baja en 11 de las 12 habilidades de evaluación correspondientes a categorías de tareas en el conjunto de tareas de prueba de Instrucciones Naturales, en comparación con el muestreo aleatorio y estratificado por habilidad en los datos de entrenamiento para el escenario fuera del dominio, donde las habilidades de entrenamiento no se alinean perfectamente con las habilidades de evaluación. Finalmente, proporcionan un estudio de caso utilizando el conjunto de datos más reciente de RedPajama de 1.2 billones de tokens para aplicar su enfoque. Continuamente preentrenan un modelo de 3B de parámetros utilizando la mezcla de datos generada por SKILL-IT. Descubren que SKILL-IT supera al muestreo uniforme en fuentes de datos con 3B de tokens en términos de precisión con 1B de tokens.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Robo-Dog establece el récord mundial de los 100 metros en la categoría sprint según el Guinness World Records

Guinness World records etiquetó a un robot parecido a un perro creado por un equipo del Instituto Avanzado de Ciencia...

Aprendizaje Automático

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos s...

Inteligencia Artificial

Cómo ayudar a los estudiantes de secundaria a prepararse para el auge de la inteligencia artificial

Un programa de verano de una semana tiene como objetivo fomentar una comprensión más profunda de los enfoques de apre...