¿Realmente necesitas Aprendizaje por Reforzamiento (RL) en RLHF? Una nueva investigación de Stanford propone DPO (Optimización de Preferencias Directas) Un paradigma de entrenamiento simple para entrenar modelos de lenguaje a partir de preferencias sin RL.
¿Necesitas RL en RLHF? Investigación de Stanford propone DPO, un paradigma simple para entrenar modelos de lenguaje sin RL.
Cuando se entrena con conjuntos de datos masivos, los grandes LMs no supervisados adquieren poderes que sorprenden incluso a sus creadores. Sin embargo, estos modelos se entrenan con información producida por personas con una amplia gama de motivaciones, objetivos y habilidades. No todas estas ambiciones y habilidades pueden ser emuladas. Es importante seleccionar cuidadosamente las respuestas y el comportamiento deseados del modelo de su vasto almacén de información y habilidades para crear sistemas confiables, efectivos y manejables.
Sin utilizar modelado de recompensa explícita o aprendizaje por refuerzo, investigadores de la Universidad de Stanford y de CZ demuestran cómo optimizar un modelo de lenguaje para que se ajuste a los gustos humanos. Su trabajo muestra que el objetivo basado en RL utilizado por los enfoques actuales puede optimizarse exactamente con un objetivo simple de entropía cruzada binaria, lo que simplifica considerablemente el proceso de aprendizaje de preferencias y demuestra cómo se puede hacer esto en la práctica.
Proponen la Optimización Directa de Preferencias (DPO). Este nuevo algoritmo logra implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de recompensa con una restricción de divergencia KL), pero es más fácil de construir y entrenar. Mientras que la actualización de DPO aumenta intuitivamente la proporción logarítmica de respuestas preferidas a no preferidas, también incluye un peso de importancia dinámico por ejemplo que evita que el modelo se degrade.
- Investigadores de UC Berkeley presentan Gorilla un modelo basado en LLaMA afinado que supera a GPT-4 en la escritura de llamadas a la API.
- Los 7 mejores libros de Procesamiento del Lenguaje Natural que todo científico de datos debe leer
- Sabemos que las LLM pueden utilizar herramientas, ¿pero sabías que también pueden crear nuevas herramientas? Conoce a las LLM como fabricantes de herramientas (LATM) un sistema de bucle cerrado que permite a las LLM crear sus propias herramientas reutilizables.
Al igual que otros algoritmos, DPO evalúa la consistencia de una función de recompensa con datos de preferencia empíricos utilizando un modelo de preferencia teórico. Mientras que los enfoques convencionales definen una pérdida de preferencia utilizando el modelo de preferencia para entrenar un modelo de recompensa, DPO en su lugar entrena una política que maximiza el modelo de recompensa aprendido utilizando un interruptor variable. Por lo tanto, DPO puede optimizar una política con un objetivo simple de entropía cruzada binaria dado un conjunto de datos de preferencias humanas sobre las respuestas del modelo sin aprender explícitamente una función de recompensa o muestrear de la política durante el entrenamiento.
Los resultados del trabajo demuestran que DPO es tan efectivo como los enfoques de vanguardia, como RLHF basado en PPO, para el aprendizaje basado en preferencias en diversas tareas, incluyendo modulación de sentimientos, resumen y diálogo, con modelos de lenguaje que contienen hasta 6B de parámetros. El 58% de las personas prefieren los resúmenes de DPO a los resúmenes de PPO (evaluaciones humanas), y el 61% prefiere los resúmenes de DPO a las evaluaciones humanas en el conjunto de pruebas. En el caso de Anthropic HH, el 60% del tiempo, las respuestas de una sola vuelta de los DPO se prefieren a las completaciones selectivas.
El equipo afirma que DPO tiene muchos usos potenciales más allá de solo entrenar modelos de lenguaje basados en preferencias humanas. Por ejemplo, puede entrenar modelos generativos en diversas modalidades.
Las evaluaciones del modelo propuesto llegan hasta 6B de parámetros, pero el equipo cree que se debe investigar más sobre cómo escalar DPO a modelos de vanguardia con órdenes de magnitud más de datos. Los investigadores también descubrieron que la indicación afecta a las tasas de victoria calculadas de GPT-4. En el futuro, planean investigar los medios más efectivos de obtener opiniones de expertos de las máquinas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Este artículo de IA propone Retentive Networks (RetNet) como una arquitectura base para modelos de lenguaje grandes logrando paralelismo de entrenamiento, inferencia de bajo costo y buen rendimiento
- Investigadores de CMU proponen GILL un método de IA para fusionar LLMs con modelos de codificador y decodificador de imágenes
- Búsqueda de similitud, Parte 6 Proyecciones aleatorias con LSH Forest
- Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos
- Una nueva investigación de IA de Italia presenta un modelo generativo basado en difusión capaz tanto de la síntesis musical como de la separación de fuentes
- Microsoft y los investigadores de Columbia proponen LLM-AUGMENTER un sistema de inteligencia artificial que aumenta un LLM de caja negra con un conjunto de módulos plug-and-play
- La Fascinante Evolución de la Inteligencia Artificial Generativa