Análisis en profundidad de la confiabilidad en los modelos GPT

Análisis confiabilidad modelos GPT

Más de la mitad de los encuestados en una reciente encuesta global afirmaron que utilizarían esta tecnología emergente en áreas sensibles como la planificación financiera y la orientación médica, a pesar de las preocupaciones de que está llena de alucinaciones, desinformación y sesgos. Muchos campos se han beneficiado de los últimos avances en el aprendizaje automático, especialmente los modelos de lenguaje grandes (LLM), que se han utilizado en todo, desde chatbots y diagnósticos médicos hasta robots. Se han desarrollado diferentes referencias para evaluar los modelos de lenguaje y comprender mejor sus capacidades y límites. Por ejemplo, se han desarrollado pruebas estandarizadas para evaluar la comprensión del lenguaje en general, como GLUE y SuperGLUE.

Más recientemente, se presentó HELM como una prueba integral de los LLM en múltiples casos de uso e indicadores. A medida que los LLM se utilizan en cada vez más campos, surgen dudas sobre su confiabilidad. La mayoría de las evaluaciones de confiabilidad de LLM existentes se centran estrechamente en factores como la robustez o la sobreconfianza.

Además, las crecientes capacidades de los modelos de lenguaje masivos pueden empeorar las dificultades de confiabilidad en los LLM. En particular, GPT-3.5 y GPT-4 demuestran una aptitud mejorada para seguir instrucciones, gracias a su optimización especializada para el diálogo; esto permite a los usuarios personalizar tonos y roles, entre otras variables de adaptación y personalización. En comparación con los modelos antiguos que solo eran buenos para rellenar texto, las capacidades mejoradas permiten agregar características como preguntas y respuestas y aprendizaje en contexto a través de breves demostraciones durante una discusión.

Para proporcionar una evaluación exhaustiva de la confiabilidad de los modelos GPT, un grupo de académicos se ha centrado en ocho puntos de vista de confiabilidad y los ha evaluado utilizando una variedad de escenarios, tareas, métricas y conjuntos de datos diseñados. El objetivo principal del grupo es medir la robustez de los modelos GPT en entornos desafiantes y evaluar su desempeño en diversos contextos de confiabilidad. La revisión se centra en los modelos GPT-3.5 y GPT-4 para confirmar que los hallazgos son consistentes y replicables.

Hablemos de GPT-3.5 y GPT-4

GPT-3.5 y GPT-4, los dos sucesores de GPT-3, han hecho posible nuevas formas de interacción. Estos modelos de vanguardia han experimentado mejoras de escalabilidad y eficiencia, así como mejoras en sus procedimientos de entrenamiento.

Los transformadores preentrenados autoregresivos (solo decodificador), como GPT-3.5 y GPT-4, funcionan de manera similar a sus predecesores, generando tokens de texto de izquierda a derecha y retroalimentando las predicciones que hicieron sobre esos tokens. A pesar de una mejora incremental con respecto a GPT-3, el número de parámetros del modelo en GPT-3.5 sigue siendo de 175 mil millones. Si bien el tamaño exacto del conjunto de parámetros de GPT-4 y del corpus de preentrenamiento sigue siendo desconocido, se sabe que GPT-4 requiere una mayor inversión financiera en el entrenamiento que GPT-3.5.

GPT-3.5 y GPT-4 utilizan la pérdida de preentrenamiento autoregresiva convencional para maximizar la probabilidad del siguiente token. Para verificar aún más que los LLM siguen las instrucciones y producen resultados que se alinean con los ideales humanos, GPT-3.5 y GPT-4 utilizan Aprendizaje por Reforzamiento a partir de la Retroalimentación Humana (RLHF).

Estos modelos se pueden acceder utilizando el sistema de consulta de la API de OpenAI. Es posible controlar la salida ajustando la temperatura y el número máximo de tokens a través de llamadas a la API. Los científicos también señalan que estos modelos no son estáticos y están sujetos a cambios. Utilizan variantes estables de estos modelos en los experimentos para garantizar la confiabilidad de los resultados.

Desde los puntos de vista de la toxicidad, el sesgo en los estereotipos, la robustez ante ataques adversarios, la robustez ante instancias fuera del dominio, la robustez frente a demostraciones adversarias, la privacidad, la ética y la equidad, los investigadores presentan evaluaciones detalladas de la confiabilidad de GPT-4 y GPT-3.5. En general, descubren que GPT-4 supera a GPT-3.5 en todos los aspectos. Sin embargo, también descubren que GPT-4 es más susceptible a la manipulación porque sigue las instrucciones más de cerca, lo que plantea nuevas preocupaciones de seguridad frente al jailbreaking o la dirección del sistema engañosa (adversaria) o demostraciones mediante aprendizaje en contexto. Además, los ejemplos sugieren que numerosas características y propiedades de las entradas afectarían la confiabilidad del modelo, lo que merece una investigación adicional.

A la luz de estas evaluaciones, se podrían seguir las siguientes líneas de investigación para aprender más sobre estas vulnerabilidades y proteger los LLM de ellas utilizando modelos GPT. Evaluaciones más colaborativas. Mayormente, utilizan conjuntos de datos estáticos, como 1-2 rondas de discusión, para examinar varios aspectos de confiabilidad de los modelos GPT. Es vital examinar los LLM con discusiones interactivas para determinar si estas vulnerabilidades se volverán más graves a medida que evolucionen los modelos de lenguaje masivos.

El contexto engañoso es un gran problema en el aprendizaje en contexto fuera de las demostraciones falsas y las indicaciones del sistema. Proporcionan una variedad de indicaciones del sistema para el jailbreaking y demostraciones falsas (adversariales) para probar las debilidades de los modelos y tener una idea de su rendimiento en el peor de los casos. Puedes manipular la salida del modelo inyectando deliberadamente información falsa en el diálogo (una conversación de “trampa”). Sería fascinante observar la susceptibilidad del modelo a diversas formas de sesgo.

La evaluación teniendo en cuenta los enemigos aliados. La mayoría de los estudios solo tienen en cuenta a un enemigo en cada escenario. Pero en realidad, dadas suficientes incentivos económicos, es plausible que los rivales diversos se unan para engañar al modelo. Por tanto, es crucial investigar la posible susceptibilidad del modelo a comportamientos hostiles coordinados y encubiertos.

  • Evaluando la credibilidad en configuraciones específicas. Las tareas estándar, como la clasificación de sentimientos y las tareas de inferencia de lenguaje natural, ilustran las vulnerabilidades generales de los modelos GPT en las evaluaciones presentadas aquí. Dado el uso generalizado de los modelos GPT en campos como el derecho y la educación, es esencial evaluar sus debilidades a la luz de estas aplicaciones específicas.
  • Se verifica la fiabilidad de los modelos GPT. Si bien las evaluaciones empíricas de los LLM son cruciales, a menudo carecen de garantías, especialmente en sectores críticos para la seguridad. Además, su estructura discontinua dificulta la verificación rigurosa de los modelos GPT. Proporcionar garantías y verificación del rendimiento de los modelos GPT, posiblemente basándose en sus funcionalidades concretas, proporcionando verificación basada en las abstracciones del modelo o mapeando el espacio discreto a su espacio continuo correspondiente, como un espacio de incrustación con preservación semántica, son ejemplos de cómo se puede descomponer el problema difícil en subproblemas más manejables.
  • Incluir información adicional y análisis de razonamiento para proteger los modelos GPT. Dado que se basan únicamente en estadísticas, los modelos GPT deben mejorar y no pueden razonar a través de problemas complejos. Para asegurar la credibilidad de los resultados del modelo, puede ser necesario proporcionar a los modelos de lenguaje conocimientos de dominio y la capacidad de razonar lógicamente y proteger sus resultados para garantizar que satisfacen el conocimiento básico o la lógica del dominio.
  • Mantener seguros los modelos GPT basados en teoría de juegos. Las indicaciones del sistema de “juego de roles” utilizadas en su creación demuestran lo fácil que es engañar a los modelos simplemente cambiando y manipulando roles. Esto sugiere que durante las conversaciones del modelo GPT se pueden crear roles diversos para garantizar la coherencia de las respuestas del modelo y, así, evitar que los modelos entren en conflicto consigo mismos. Es posible asignar tareas específicas para asegurarse de que los modelos tienen un conocimiento exhaustivo de la situación y ofrecen resultados fiables.
  • Probar versiones de GPT según pautas y condiciones específicas. Si bien los modelos se valoran en función de su aplicabilidad general, los usuarios pueden tener necesidades especializadas de seguridad o fiabilidad que deben tenerse en cuenta. Por tanto, para auditar el modelo de manera más eficiente y efectiva, es vital mapear las necesidades e instrucciones del usuario a espacios lógicos o contextos de diseño específicos y evaluar si los resultados satisfacen estos criterios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

LastMile AI lanza AiConfig un marco de desarrollo de aplicaciones de IA basado en configuración de código abierto y compatible con el control de fuente.

En el ámbito en constante evolución del desarrollo de aplicaciones de inteligencia artificial, AI Config de LastMile ...

Inteligencia Artificial

AI 'Avance' Red neuronal tiene capacidad similar a la humana para generalizar el lenguaje

Una inteligencia artificial basada en redes neuronales supera a ChatGPT en la capacidad de incorporar rápidamente nue...

Aprendizaje Automático

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Muchas áreas pueden beneficiarse y utilizar los avances recientes en la estimación de la pose y forma humana 3D (HPS)...

Inteligencia Artificial

Despliega miles de conjuntos de modelos con puntos finales multinivel de Amazon SageMaker en GPU para minimizar tus costos de alojamiento

La adopción de inteligencia artificial (IA) se está acelerando en diversas industrias y casos de uso. Los recientes a...

Inteligencia Artificial

Este artículo de IA propone un método novedoso basado en gradientes llamado Cones para analizar e identificar las neuronas conceptuales en modelos de difusión

La compleja estructura del cerebro le permite realizar tareas cognitivas y creativas asombrosas. Según la investigaci...