¿Realmente necesitas Aprendizaje por Reforzamiento (RL) en RLHF? Una nueva investigación de Stanford propone DPO (Optimización de Preferencias Directas) Un paradigma de entrenamiento simple para entrenar modelos de lenguaje a partir de preferencias sin RL.

¿Necesitas RL en RLHF? Investigación de Stanford propone DPO, un paradigma simple para entrenar modelos de lenguaje sin RL.

Cuando se entrena con conjuntos de datos masivos, los grandes LMs no supervisados adquieren poderes que sorprenden incluso a sus creadores. Sin embargo, estos modelos se entrenan con información producida por personas con una amplia gama de motivaciones, objetivos y habilidades. No todas estas ambiciones y habilidades pueden ser emuladas. Es importante seleccionar cuidadosamente las respuestas y el comportamiento deseados del modelo de su vasto almacén de información y habilidades para crear sistemas confiables, efectivos y manejables.

Sin utilizar modelado de recompensa explícita o aprendizaje por refuerzo, investigadores de la Universidad de Stanford y de CZ demuestran cómo optimizar un modelo de lenguaje para que se ajuste a los gustos humanos. Su trabajo muestra que el objetivo basado en RL utilizado por los enfoques actuales puede optimizarse exactamente con un objetivo simple de entropía cruzada binaria, lo que simplifica considerablemente el proceso de aprendizaje de preferencias y demuestra cómo se puede hacer esto en la práctica.

Proponen la Optimización Directa de Preferencias (DPO). Este nuevo algoritmo logra implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de recompensa con una restricción de divergencia KL), pero es más fácil de construir y entrenar. Mientras que la actualización de DPO aumenta intuitivamente la proporción logarítmica de respuestas preferidas a no preferidas, también incluye un peso de importancia dinámico por ejemplo que evita que el modelo se degrade.

Al igual que otros algoritmos, DPO evalúa la consistencia de una función de recompensa con datos de preferencia empíricos utilizando un modelo de preferencia teórico. Mientras que los enfoques convencionales definen una pérdida de preferencia utilizando el modelo de preferencia para entrenar un modelo de recompensa, DPO en su lugar entrena una política que maximiza el modelo de recompensa aprendido utilizando un interruptor variable. Por lo tanto, DPO puede optimizar una política con un objetivo simple de entropía cruzada binaria dado un conjunto de datos de preferencias humanas sobre las respuestas del modelo sin aprender explícitamente una función de recompensa o muestrear de la política durante el entrenamiento.

Los resultados del trabajo demuestran que DPO es tan efectivo como los enfoques de vanguardia, como RLHF basado en PPO, para el aprendizaje basado en preferencias en diversas tareas, incluyendo modulación de sentimientos, resumen y diálogo, con modelos de lenguaje que contienen hasta 6B de parámetros. El 58% de las personas prefieren los resúmenes de DPO a los resúmenes de PPO (evaluaciones humanas), y el 61% prefiere los resúmenes de DPO a las evaluaciones humanas en el conjunto de pruebas. En el caso de Anthropic HH, el 60% del tiempo, las respuestas de una sola vuelta de los DPO se prefieren a las completaciones selectivas.

El equipo afirma que DPO tiene muchos usos potenciales más allá de solo entrenar modelos de lenguaje basados en preferencias humanas. Por ejemplo, puede entrenar modelos generativos en diversas modalidades.

Las evaluaciones del modelo propuesto llegan hasta 6B de parámetros, pero el equipo cree que se debe investigar más sobre cómo escalar DPO a modelos de vanguardia con órdenes de magnitud más de datos. Los investigadores también descubrieron que la indicación afecta a las tasas de victoria calculadas de GPT-4. En el futuro, planean investigar los medios más efectivos de obtener opiniones de expertos de las máquinas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningReinforcement LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

¿Realmente necesitas Aprendizaje por Reforzamiento (RL) en RLHF? Una nueva investigación de Stanford propone DPO (Optimización de Preferencias Directas) Un paradigma de entrenamiento simple para entrenar modelos de lenguaje a partir de preferencias sin RL.

Was this article helpful?

Investigadores de UC Berkeley presentan Gorilla un modelo basado en LLaMA afinado que supera a GPT-4 en la escritura de llamadas a la API.

Miles de autores instan a las compañías de IA a dejar de usar trabajos sin permiso

Inteligencia Artificial

¿Qué hace exactamente un Científico de Datos?

Personalizando compañeros de codificación para organizaciones

Herramientas para evaluar el riesgo de delincuencia en jóvenes cohortes propensos a fracasar con el tiempo.

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Sistema de inyección bacteriano entrega proteínas en ratones y células humanas.

Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).