Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

Evaluación de modelos de lenguaje con AgentSims, un marco de IA basado en tareas para pruebas completas y objetivas.

Los LLM han cambiado la forma en que se piensa en el procesamiento del lenguaje (NLP), pero persiste el problema de su evaluación. Los estándares antiguos eventualmente se vuelven irrelevantes, dado que los LLM pueden realizar NLU y NLG a niveles humanos (OpenAI, 2023) utilizando datos lingüísticos.

En respuesta a la necesidad urgente de nuevos puntos de referencia en áreas como las pruebas de conocimiento basadas en preguntas y respuestas (QA) de libros cerrados, exámenes estandarizados centrados en el ser humano, diálogo de múltiples turnos, razonamiento y evaluación de seguridad, la comunidad de NLP ha desarrollado nuevas tareas de evaluación y conjuntos de datos que cubren una amplia gama de habilidades.

No obstante, persisten los siguientes problemas con estos estándares actualizados:

  1. Los formatos de las tareas imponen limitaciones a las habilidades evaluables. La mayoría de estas actividades utilizan un estilo de preguntas y respuestas de un solo turno, lo que las hace inadecuadas para medir la versatilidad de los LLM en su conjunto.
  2. Es fácil manipular los puntos de referencia. Al determinar la eficacia de un modelo, es crucial que el conjunto de pruebas no se vea comprometido de ninguna manera. Sin embargo, con tanta información de LLM ya entrenada, es cada vez más probable que los casos de prueba se mezclen con los datos de entrenamiento.
  3. Las métricas actualmente disponibles para las preguntas y respuestas abiertas son subjetivas. Las medidas tradicionales de preguntas y respuestas abiertas han incluido tanto calificaciones humanas objetivas como subjetivas. En la era de los LLM, las medidas basadas en la coincidencia de segmentos de texto ya no son relevantes.

Los investigadores están utilizando actualmente evaluadores automáticos basados en LLM bien alineados como GPT4 para reducir el alto costo de la calificación humana. Si bien los LLM tienen sesgos hacia ciertos rasgos, el mayor problema con este método es que no puede analizar modelos de nivel supra-GPT4. 

Estudios recientes realizados por PTA Studio, la Universidad Estatal de Pensilvania, la Universidad Beihang, la Universidad Sun Yat-sen, la Universidad de Zhejiang y la Universidad Normal del Este de China presentan AgentSims, una arquitectura para la curación de tareas de evaluación para LLM que es interactiva, visualmente atractiva y basada en programación. El objetivo principal de AgentSims es facilitar el proceso de diseño de tareas al eliminar las barreras que los investigadores con diferentes niveles de experiencia en programación pueden enfrentar. 

Los investigadores en el campo de LLM pueden aprovechar la extensibilidad y combinabilidad de AgentSims para examinar los efectos de combinar múltiples planes, sistemas de memoria y sistemas de aprendizaje. La interfaz de usuario de AgentSims para la generación de mapas y la gestión de agentes, fácil de usar, la hace accesible a especialistas en temas tan diversos como la economía del comportamiento y la psicología social. Un diseño amigable para el usuario como este es crucial para el crecimiento y desarrollo continuo del sector LLM. 

El artículo de investigación afirma que AgentSims es mejor que los puntos de referencia actuales de LLM, que solo prueban un número pequeño de habilidades y utilizan datos de prueba y criterios abiertos a interpretación. Los científicos sociales y otros usuarios no técnicos pueden crear rápidamente entornos y diseñar trabajos utilizando los menús y funciones de arrastrar y soltar de la interfaz gráfica. Al modificar las clases de agente, planificación, memoria y uso de herramientas del código abstracto, los profesionales y desarrolladores de IA pueden experimentar con diversos sistemas de soporte de LLM. La tasa de éxito del objetivo de la tarea se puede determinar mediante la evaluación impulsada por objetivos. En resumen, AgentSims facilita el desarrollo comunitario interdisciplinario de puntos de referencia LLM robustos basados en simulaciones sociales variadas con objetivos explícitos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Sam Altman despedido como CEO de OpenAI

En un giro sorprendente de los acontecimientos, OpenAI, el principal laboratorio de investigación en inteligencia art...

Inteligencia Artificial

La Casa Blanca propone un programa de ciberseguridad para hogares inteligentes

El objetivo de la nueva certificación es ayudar a los consumidores a tomar decisiones.

Inteligencia Artificial

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.

Alarmado por el poder de la inteligencia artificial, Europa, Estados Unidos y otros están tratando de responder, pero...

Inteligencia Artificial

Un superordenador de inteligencia artificial cobra vida, impulsado por gigantes chips de computadora

La nueva supercomputadora, creada por la start-up de Silicon Valley Cerebras, fue presentada al mundo debido al auge ...

Inteligencia Artificial

Geoffrey Hinton sobre la Promesa y los Riesgos de la IA Avanzada

El científico informático del Reino Unido y ganador del Premio Turing ACM A.M. 2019, Geoffrey Hinton, dijo que la int...