LMSYS ORG presenta Chatbot Arena una plataforma de referencia de LLM con batallas anónimas y aleatorias realizadas por la multitud

LMSYS ORG presenta Chatbot Arena, una plataforma de LLM con batallas anónimas y aleatorias realizadas por la multitud.

Muchos proyectos de código abierto han desarrollado modelos lingüísticos completos que se pueden entrenar para llevar a cabo tareas específicas. Estos modelos pueden proporcionar respuestas útiles a las preguntas y comandos de los usuarios. Algunos ejemplos destacados incluyen Alpaca y Vicuna basados en LLaMA, y OpenAssistant y Dolly basados en Pythia.

Aunque nuevos modelos se lanzan cada semana, la comunidad aún lucha por evaluarlos adecuadamente. Debido a que las preocupaciones de los asistentes de LLM a menudo son vagas, es difícil crear un sistema de evaluación que pueda evaluar automáticamente la calidad de sus respuestas. Aquí a menudo se requiere una evaluación humana mediante comparación pareja. Un sistema de evaluación escalable, incremental y distintivo basado en comparación pareja sería ideal.

Pocos de los sistemas de evaluación actuales de LLM cumplen con todos estos requisitos. Los marcos de evaluación clásicos de LLM como HELM y lm-evaluation-harness proporcionan medidas multi-métricas para tareas estándar de investigación. Sin embargo, no evalúan bien las preguntas de formato libre porque no se basan en comparaciones pareja.

LMSYS ORG es una organización que desarrolla modelos y sistemas grandes, abiertos, escalables y accesibles. Su nuevo trabajo presenta Chatbot Arena, una plataforma de evaluación de LLM basada en la multitud con batallas anónimas y aleatorias. Al igual que en el ajedrez y otros juegos competitivos, en Chatbot Arena se emplea el sistema de calificación Elo. El sistema de calificación Elo muestra promesa para proporcionar la calidad deseada mencionada anteriormente.

Comenzaron a recopilar información hace una semana cuando abrieron la arena con muchos LLM de código abierto conocidos. Se pueden ver algunos ejemplos de aplicaciones del mundo real de LLM en el método de recopilación de datos de crowdsourcing. Un usuario puede comparar y contrastar dos modelos anónimos mientras chatea con ellos simultáneamente en la arena.

FastChat, el sistema de servicio multi-modelo, alojó la arena en https://arena.lmsys.org. Una persona que ingresa a la arena se encontrará con una conversación con dos modelos sin nombre. Cuando los consumidores reciben comentarios de ambos modelos, pueden continuar la conversación o votar por el que prefieran. Después de emitir un voto, las identidades de los modelos se revelarán. Los usuarios pueden seguir conversando con los mismos dos modelos anónimos o comenzar una nueva batalla con dos modelos nuevos. El sistema registra todas las actividades de los usuarios. Solo cuando los nombres de los modelos se han ocultado se utilizan los votos en el análisis. Desde que la arena se puso en marcha hace una semana, se han contabilizado alrededor de 7,000 votos legítimos y anónimos.

En el futuro, quieren implementar algoritmos de muestreo mejorados, procedimientos de torneo y sistemas de servicio para acomodar una mayor variedad de modelos y proporcionar clasificaciones detalladas para diversas tareas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…

La IA multimodal es un campo de la Inteligencia Artificial (IA) que combina diferentes tipos de datos (modalidades), ...

Aprendizaje Automático

Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.

La Inteligencia Artificial está evolucionando con la introducción de la IA Generativa y los Modelos de Lenguaje de Gr...

Inteligencia Artificial

Computación de siguiente nivel NVIDIA y AMD ofrecen potentes estaciones de trabajo para acelerar la IA, el renderizado y la simulación.

Para permitir a profesionales de todo el mundo construir y ejecutar aplicaciones de inteligencia artificial desde sus...

Inteligencia Artificial

Las reseñas falsas son desenfrenadas en línea. ¿Puede una represión ponerles fin?

Una ola de regulación y acción de la industria ha puesto en aviso al próspero negocio de las reseñas falsas. Pero los...