Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

Evaluación de modelos de lenguaje con AgentSims, un marco de IA basado en tareas para pruebas completas y objetivas.

Los LLM han cambiado la forma en que se piensa en el procesamiento del lenguaje (NLP), pero persiste el problema de su evaluación. Los estándares antiguos eventualmente se vuelven irrelevantes, dado que los LLM pueden realizar NLU y NLG a niveles humanos (OpenAI, 2023) utilizando datos lingüísticos.

En respuesta a la necesidad urgente de nuevos puntos de referencia en áreas como las pruebas de conocimiento basadas en preguntas y respuestas (QA) de libros cerrados, exámenes estandarizados centrados en el ser humano, diálogo de múltiples turnos, razonamiento y evaluación de seguridad, la comunidad de NLP ha desarrollado nuevas tareas de evaluación y conjuntos de datos que cubren una amplia gama de habilidades.

No obstante, persisten los siguientes problemas con estos estándares actualizados:

  1. Los formatos de las tareas imponen limitaciones a las habilidades evaluables. La mayoría de estas actividades utilizan un estilo de preguntas y respuestas de un solo turno, lo que las hace inadecuadas para medir la versatilidad de los LLM en su conjunto.
  2. Es fácil manipular los puntos de referencia. Al determinar la eficacia de un modelo, es crucial que el conjunto de pruebas no se vea comprometido de ninguna manera. Sin embargo, con tanta información de LLM ya entrenada, es cada vez más probable que los casos de prueba se mezclen con los datos de entrenamiento.
  3. Las métricas actualmente disponibles para las preguntas y respuestas abiertas son subjetivas. Las medidas tradicionales de preguntas y respuestas abiertas han incluido tanto calificaciones humanas objetivas como subjetivas. En la era de los LLM, las medidas basadas en la coincidencia de segmentos de texto ya no son relevantes.

Los investigadores están utilizando actualmente evaluadores automáticos basados en LLM bien alineados como GPT4 para reducir el alto costo de la calificación humana. Si bien los LLM tienen sesgos hacia ciertos rasgos, el mayor problema con este método es que no puede analizar modelos de nivel supra-GPT4. 

Estudios recientes realizados por PTA Studio, la Universidad Estatal de Pensilvania, la Universidad Beihang, la Universidad Sun Yat-sen, la Universidad de Zhejiang y la Universidad Normal del Este de China presentan AgentSims, una arquitectura para la curación de tareas de evaluación para LLM que es interactiva, visualmente atractiva y basada en programación. El objetivo principal de AgentSims es facilitar el proceso de diseño de tareas al eliminar las barreras que los investigadores con diferentes niveles de experiencia en programación pueden enfrentar. 

Los investigadores en el campo de LLM pueden aprovechar la extensibilidad y combinabilidad de AgentSims para examinar los efectos de combinar múltiples planes, sistemas de memoria y sistemas de aprendizaje. La interfaz de usuario de AgentSims para la generación de mapas y la gestión de agentes, fácil de usar, la hace accesible a especialistas en temas tan diversos como la economía del comportamiento y la psicología social. Un diseño amigable para el usuario como este es crucial para el crecimiento y desarrollo continuo del sector LLM. 

El artículo de investigación afirma que AgentSims es mejor que los puntos de referencia actuales de LLM, que solo prueban un número pequeño de habilidades y utilizan datos de prueba y criterios abiertos a interpretación. Los científicos sociales y otros usuarios no técnicos pueden crear rápidamente entornos y diseñar trabajos utilizando los menús y funciones de arrastrar y soltar de la interfaz gráfica. Al modificar las clases de agente, planificación, memoria y uso de herramientas del código abstracto, los profesionales y desarrolladores de IA pueden experimentar con diversos sistemas de soporte de LLM. La tasa de éxito del objetivo de la tarea se puede determinar mediante la evaluación impulsada por objetivos. En resumen, AgentSims facilita el desarrollo comunitario interdisciplinario de puntos de referencia LLM robustos basados en simulaciones sociales variadas con objetivos explícitos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a los 'Super Usuarios' de la IA Generativa el 70% de la Generación Z utiliza GenAI

La encuesta de Salesforce muestra que la edad y el estado laboral son factores importantes en la adopción de la IA.

Inteligencia Artificial

Robo-Dog establece el récord mundial de los 100 metros en la categoría sprint según el Guinness World Records

Guinness World records etiquetó a un robot parecido a un perro creado por un equipo del Instituto Avanzado de Ciencia...

Inteligencia Artificial

Por qué los científicos se adentran en el mundo virtual

Un número creciente de investigadores científicos están utilizando la tecnología de realidad virtual (VR) en el labor...

Inteligencia Artificial

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

En medio de todo el revuelo en torno a la inteligencia artificial, las empresas están comenzando a darse cuenta de la...

Inteligencia Artificial

Analizar la infestación de roedores utilizando las capacidades geoespaciales de Amazon SageMaker

Los roedores como las ratas y los ratones están asociados con varios riesgos para la salud y se sabe que transmiten m...