¿Realmente necesitas Aprendizaje por Reforzamiento (RL) en RLHF? Una nueva investigación de Stanford propone DPO (Optimización de Preferencias Directas) Un paradigma de entrenamiento simple para entrenar modelos de lenguaje a partir de preferencias sin RL.

¿Necesitas RL en RLHF? Investigación de Stanford propone DPO, un paradigma simple para entrenar modelos de lenguaje sin RL.

Cuando se entrena con conjuntos de datos masivos, los grandes LMs no supervisados adquieren poderes que sorprenden incluso a sus creadores. Sin embargo, estos modelos se entrenan con información producida por personas con una amplia gama de motivaciones, objetivos y habilidades. No todas estas ambiciones y habilidades pueden ser emuladas. Es importante seleccionar cuidadosamente las respuestas y el comportamiento deseados del modelo de su vasto almacén de información y habilidades para crear sistemas confiables, efectivos y manejables.

Sin utilizar modelado de recompensa explícita o aprendizaje por refuerzo, investigadores de la Universidad de Stanford y de CZ demuestran cómo optimizar un modelo de lenguaje para que se ajuste a los gustos humanos. Su trabajo muestra que el objetivo basado en RL utilizado por los enfoques actuales puede optimizarse exactamente con un objetivo simple de entropía cruzada binaria, lo que simplifica considerablemente el proceso de aprendizaje de preferencias y demuestra cómo se puede hacer esto en la práctica.

Proponen la Optimización Directa de Preferencias (DPO). Este nuevo algoritmo logra implícitamente el mismo objetivo que los algoritmos RLHF existentes (maximización de recompensa con una restricción de divergencia KL), pero es más fácil de construir y entrenar. Mientras que la actualización de DPO aumenta intuitivamente la proporción logarítmica de respuestas preferidas a no preferidas, también incluye un peso de importancia dinámico por ejemplo que evita que el modelo se degrade.

Al igual que otros algoritmos, DPO evalúa la consistencia de una función de recompensa con datos de preferencia empíricos utilizando un modelo de preferencia teórico. Mientras que los enfoques convencionales definen una pérdida de preferencia utilizando el modelo de preferencia para entrenar un modelo de recompensa, DPO en su lugar entrena una política que maximiza el modelo de recompensa aprendido utilizando un interruptor variable. Por lo tanto, DPO puede optimizar una política con un objetivo simple de entropía cruzada binaria dado un conjunto de datos de preferencias humanas sobre las respuestas del modelo sin aprender explícitamente una función de recompensa o muestrear de la política durante el entrenamiento.

Los resultados del trabajo demuestran que DPO es tan efectivo como los enfoques de vanguardia, como RLHF basado en PPO, para el aprendizaje basado en preferencias en diversas tareas, incluyendo modulación de sentimientos, resumen y diálogo, con modelos de lenguaje que contienen hasta 6B de parámetros. El 58% de las personas prefieren los resúmenes de DPO a los resúmenes de PPO (evaluaciones humanas), y el 61% prefiere los resúmenes de DPO a las evaluaciones humanas en el conjunto de pruebas. En el caso de Anthropic HH, el 60% del tiempo, las respuestas de una sola vuelta de los DPO se prefieren a las completaciones selectivas.

El equipo afirma que DPO tiene muchos usos potenciales más allá de solo entrenar modelos de lenguaje basados en preferencias humanas. Por ejemplo, puede entrenar modelos generativos en diversas modalidades.

Las evaluaciones del modelo propuesto llegan hasta 6B de parámetros, pero el equipo cree que se debe investigar más sobre cómo escalar DPO a modelos de vanguardia con órdenes de magnitud más de datos. Los investigadores también descubrieron que la indicación afecta a las tasas de victoria calculadas de GPT-4. En el futuro, planean investigar los medios más efectivos de obtener opiniones de expertos de las máquinas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Jeff Wilke SM '93, ex CEO del negocio de Consumidores Mundiales de Amazon, lleva su estrategia de LGO a su nueva misi...

Inteligencia Artificial

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

La traducción de voz a voz (S2ST, por sus siglas en inglés) ha sido una tecnología transformadora para romper las bar...

Inteligencia Artificial

Synapse CoR ChatGPT con un Giro Revolucionario

Conoce sobre un nuevo indicador de sistema que utilizarás junto con instrucciones personalizadas, convirtiendo ChatGP...

Inteligencia Artificial

Top 50 Herramientas de Escritura de IA para Probar (Agosto 2023)

Grammarly Grammarly es una gran herramienta para mejorar la escritura. Revisa la gramática, ortografía, puntuación y ...

Inteligencia Artificial

Investigadores de Microsoft presentan Table-GPT Elevando modelos de lenguaje para destacar en la comprensión de tablas bidimensionales y tareas relacionadas.

Con los recientes avances en el campo de la inteligencia artificial, los Modelos de Lenguaje Grande, incluyendo GPT y...