¿Realmente necesitas Aprendizaje por Reforzamiento (RL) en RLHF? Una nueva investigación de Stanford propone DPO (Optimización de Preferencias Directas) Un paradigma de entrenamiento simple para entrenar modelos de lenguaje a partir de preferencias sin RL.

¿Necesitas RL en RLHF? Investigación de Stanford propone DPO, un paradigma simple para entrenar modelos de lenguaje sin RL.

Cuando se entrena con conjuntos de datos masivos, los grandes LMs no supervisados adquieren poderes que sorprenden incluso a sus creadores. Sin embargo, estos modelos se entrenan con información producida por personas con una amplia gama de motivaciones, objetivos y habilidades. No todas estas ambiciones y habilidades pueden ser emuladas. Es importante seleccionar cuidadosamente las respuestas y el comportamiento deseados del modelo de su vasto almacén de información y habilidades para crear sistemas confiables, efectivos y manejables.

Sin utilizar modelado de recompensa explícita o aprendizaje por refuerzo, investigadores de la Universidad de Stanford y de CZ demuestran cómo optimizar un modelo de lenguaje para que se ajuste a los gustos humanos. Su trabajo muestra que el objetivo basado en RL utilizado por los enfoques actuales puede optimizarse exactamente con un objetivo simple de entropía cruzada binaria, lo que simplifica considerablemente el proceso de aprendizaje de preferencias y demuestra cómo se puede hacer esto en la práctica.

Proponen la Optimización Directa de Preferencias (DPO). Este nuevo algoritmo logra implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de recompensa con una restricción de divergencia KL), pero es más fácil de construir y entrenar. Mientras que la actualización de DPO aumenta intuitivamente la proporción logarítmica de respuestas preferidas a no preferidas, también incluye un peso de importancia dinámico por ejemplo que evita que el modelo se degrade.

Al igual que otros algoritmos, DPO evalúa la consistencia de una función de recompensa con datos de preferencia empíricos utilizando un modelo de preferencia teórico. Mientras que los enfoques convencionales definen una pérdida de preferencia utilizando el modelo de preferencia para entrenar un modelo de recompensa, DPO en su lugar entrena una política que maximiza el modelo de recompensa aprendido utilizando un interruptor variable. Por lo tanto, DPO puede optimizar una política con un objetivo simple de entropía cruzada binaria dado un conjunto de datos de preferencias humanas sobre las respuestas del modelo sin aprender explícitamente una función de recompensa o muestrear de la política durante el entrenamiento.

Los resultados del trabajo demuestran que DPO es tan efectivo como los enfoques de vanguardia, como RLHF basado en PPO, para el aprendizaje basado en preferencias en diversas tareas, incluyendo modulación de sentimientos, resumen y diálogo, con modelos de lenguaje que contienen hasta 6B de parámetros. El 58% de las personas prefieren los resúmenes de DPO a los resúmenes de PPO (evaluaciones humanas), y el 61% prefiere los resúmenes de DPO a las evaluaciones humanas en el conjunto de pruebas. En el caso de Anthropic HH, el 60% del tiempo, las respuestas de una sola vuelta de los DPO se prefieren a las completaciones selectivas.

El equipo afirma que DPO tiene muchos usos potenciales más allá de solo entrenar modelos de lenguaje basados en preferencias humanas. Por ejemplo, puede entrenar modelos generativos en diversas modalidades.

Las evaluaciones del modelo propuesto llegan hasta 6B de parámetros, pero el equipo cree que se debe investigar más sobre cómo escalar DPO a modelos de vanguardia con órdenes de magnitud más de datos. Los investigadores también descubrieron que la indicación afecta a las tasas de victoria calculadas de GPT-4. En el futuro, planean investigar los medios más efectivos de obtener opiniones de expertos de las máquinas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

¿Qué hace exactamente un Científico de Datos?

Como muestra este variado conjunto de descripciones de trabajo, puede resultar realmente difícil tener una idea clara...

Inteligencia Artificial

Personalizando compañeros de codificación para organizaciones

Los modelos de IA generativa para compañeros de codificación se entrenan principalmente con código fuente disponible ...

Noticias de Inteligencia Artificial

Herramientas para evaluar el riesgo de delincuencia en jóvenes cohortes propensos a fracasar con el tiempo.

Los científicos sugieren que el sesgo de cohorte impulsado por el cambio social socava los instrumentos de evaluación...

Inteligencia Artificial

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser p...

Investigación

Sistema de inyección bacteriano entrega proteínas en ratones y células humanas.

Con un mayor desarrollo, el sistema programable podría ser utilizado en una variedad de aplicaciones, incluyendo tera...

Inteligencia Artificial

Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).

En los últimos años, hemos visto un aumento en los modelos de lenguaje grandes (LLMs) (como GPT4) que son excelentes ...