Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

Be careful with unreliable data in the evaluation of models a case study of LLM Prompt selection with Flan-T5.

Puede elegir indicaciones subóptimas para su LLM (o tomar otras decisiones subóptimas a través de la evaluación del modelo) a menos que limpie sus datos de prueba

Crédito: Arthur Osipyan, Unsplash

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como qué modelo o indicación desplegar (y si desplegar en absoluto). En este artículo, proporcionamos indicaciones al LLM FLAN-T5 de Google Research con el fin de clasificar el texto como educado o mal educado. Entre los candidatos a la indicación, encontramos que las indicaciones que parecen tener un mejor rendimiento basado en la precisión de prueba observada a menudo son peores que otros candidatos a la indicación. Una revisión más detallada de los datos de prueba revela que esto se debe a anotaciones poco confiables. En aplicaciones del mundo real, puede elegir indicaciones subóptimas para su LLM (o tomar otras decisiones subóptimas guiadas por la evaluación del modelo) a menos que limpie sus datos de prueba para asegurarse de que sean confiables.

Seleccionar excelentes indicaciones es esencial para garantizar respuestas precisas de los modelos de lenguaje grande.

Aunque los daños de las anotaciones ruidosas están bien caracterizados en los datos de entrenamiento, este artículo demuestra sus consecuencias a menudo pasadas por alto en los datos de prueba.

Actualmente soy científico de datos en Cleanlab y estoy emocionado de compartir la importancia (y cómo puede garantizar) de datos de prueba de alta calidad para asegurar la selección óptima de indicaciones del LLM.

Descripción general

Puede descargar los datos aquí .

Este artículo estudia una variante de clasificación binaria del Conjunto de datos de Cortesía de Stanford (utilizado bajo licencia CC BY v4.0 ), que tiene frases de texto etiquetadas como educadas o mal educadas . Evaluamos modelos utilizando un conjunto de datos de prueba fijo que contiene 700 frases.

Vista previa del conjunto de datos que muestra el texto y la etiqueta de cortesía verdadera.

Es práctica común evaluar qué tan “bueno” es un modelo de clasificación midiendo la precisión de sus predicciones contra las etiquetas dadas para ejemplos que el modelo no vio durante el entrenamiento, generalmente referidos como datos de “prueba”, “evaluación” o “validación”. Esto proporciona una métrica numérica para evaluar qué tan bueno es el modelo A en comparación con el modelo B – si el modelo A muestra una precisión de prueba más alta, estimamos que es el mejor modelo y elegiríamos desplegarlo sobre el modelo B. Más allá de la selección del modelo, el mismo marco de toma de decisiones se puede aplicar a otras opciones como si usar: el valor de hiperparámetro A o B, la indicación A o B, conjunto de características A o B, etc.

Un problema común en los datos de prueba del mundo real es que algunos ejemplos tienen etiquetas incorrectas, ya sea debido a errores de anotación humana, errores de procesamiento de datos, ruido del sensor, etc. En tales casos, la precisión de prueba se convierte en un indicador menos confiable del rendimiento relativo entre el modelo A y el modelo B. Usemos un ejemplo muy simple para ilustrar esto. Imagine que su conjunto de datos de prueba tiene dos ejemplos de texto mal educado, pero sin saberlo, están etiquetados (incorrectamente) como educados. Por ejemplo, en nuestro conjunto de datos de cortesía de Stanford, vemos que un anotador humano real etiquetó erróneamente este texto “¿Estás loco aquí abajo?! ¿Qué diablos está pasando?” como educado cuando el lenguaje está claramente agitado. Ahora su trabajo es elegir el mejor modelo para clasificar estos ejemplos. El modelo A dice que ambos ejemplos son mal educados y el modelo B dice que ambos ejemplos son educados . Basado en estas etiquetas (incorrectas), el modelo A obtiene una puntuación del 0% mientras que el modelo B obtiene una puntuación del 100% – ¡elige el modelo B para desplegar! Pero espera, ¿cuál modelo es realmente más fuerte?

Aunque estas implicaciones son triviales y muchos son conscientes de que los datos del mundo real están llenos de errores de etiquetado, a menudo las personas se centran solo en las etiquetas ruidosas en sus datos de entrenamiento, olvidando curar cuidadosamente sus datos de prueba aunque guían decisiones cruciales. Usando datos reales, este artículo ilustra la importancia de datos de prueba de alta calidad para guiar la elección de indicaciones del LLM y demuestra una forma de mejorar fácilmente la calidad de los datos a través de técnicas algorítmicas.

Precisión de prueba observada vs precisión de prueba limpia

Aquí consideramos dos posibles conjuntos de pruebas construidos a partir del mismo conjunto de ejemplos de texto que solo difieren en algunas etiquetas (~30%). Representando datos típicos que usarías para evaluar la precisión, una versión tiene etiquetas obtenidas de una sola anotación (evaluador humano) por ejemplo, y reportamos la precisión de las predicciones del modelo calculadas en esta versión como Precisión de prueba observada. Una segunda versión más limpia de este mismo conjunto de pruebas tiene etiquetas de alta calidad establecidas a través del consenso entre muchas anotaciones que acuerdan por ejemplo (derivadas de múltiples evaluadores humanos). Informamos la precisión medida en la versión más limpia como Precisión de prueba limpia. Por lo tanto, la Precisión de prueba limpia refleja más de cerca lo que le importa (rendimiento real de implementación del modelo), pero la Precisión de prueba observada es todo lo que obtienes para observar en la mayoría de las aplicaciones, ¡a menos que primero limpies tus datos de prueba!

A continuación se muestran dos ejemplos de prueba en los que el único anotador humano etiquetó incorrectamente el ejemplo, pero el grupo de muchos anotadores humanos acordó la etiqueta correcta.

Las anotaciones naranjas recogidas de un solo anotador son más baratas de recoger, pero a menudo son incorrectas. Las anotaciones azules son recogidas de múltiples anotadores que son más caras, pero generalmente más precisas.

En proyectos del mundo real, a menudo no tienes acceso a etiquetas “limpias” de este tipo, por lo que solo puedes medir la Precisión de prueba observada. Si estás tomando decisiones críticas como qué LLM o indicación usar en función de esta métrica, asegúrate primero de verificar que las etiquetas sean de alta calidad. De lo contrario, encontramos que puedes tomar las decisiones equivocadas, como se observó a continuación al seleccionar indicaciones para la clasificación de cortesía.

Impacto de los datos de evaluación ruidosos

Como modelo predictivo para clasificar la cortesía del texto, es natural emplear un modelo de lenguaje grande preentrenado (LLM). Aquí, específicamente usamos el modelo FLAN-T5 de código abierto, el favorito de los científicos de datos. Para hacer que este LLM prediga con precisión la cortesía del texto, debemos alimentarlo con las indicaciones correctas. ¡La ingeniería de indicaciones puede ser muy sensible, con pequeños cambios que afectan en gran medida la precisión!

Las indicaciones A y B que se muestran a continuación (texto resaltado) son dos ejemplos diferentes de indicaciones de cadena de pensamiento, que se pueden agregar al principio de cualquier muestra de texto para hacer que el LLM clasifique su cortesía. Estas indicaciones combinan ejemplos de pocos disparos e indicaciones de instrucción (detalles más adelante) que proporcionan ejemplos, la respuesta correcta y una justificación que alienta al LLM a explicar su razonamiento. La única diferencia entre estas dos indicaciones es el texto resaltado que realmente está provocando una respuesta del LLM. Los ejemplos de pocos disparos y el razonamiento siguen siendo los mismos.

Las indicaciones de cadena de pensamiento proporcionan al modelo el razonamiento de por qué la respuesta es correcta para cada ejemplo de texto dado.

La forma natural de decidir qué indicación es mejor se basa en su Precisión de prueba observada. Cuando se usa para provocar el LLM FLAN-T5, vemos a continuación que las clasificaciones producidas por la Indicación A tienen una Precisión de prueba observada más alta en el conjunto de pruebas original que las de la Indicación B. Entonces, obviamente deberíamos implementar nuestro LLM con la Indicación A, ¿verdad? ¡No tan rápido!

Cuando evaluamos la Precisión de prueba limpia de cada indicación, encontramos que la Indicación B es en realidad mucho mejor que la Indicación A (por 4.5 puntos porcentuales). Dado que la Precisión de prueba limpia refleja más de cerca el rendimiento real que realmente nos importa, ¡habríamos tomado la decisión equivocada si solo nos hubiéramos basado en los datos de prueba originales sin examinar la calidad de sus etiquetas!

Usando la precisión observada, seleccionarías la Indicación A como mejor. La Indicación B es en realidad la mejor indicación cuando se evalúa en el conjunto de pruebas limpio.

¿Es solo una fluctuación estadística?

La prueba de McNemar es una forma recomendada de evaluar la significancia estadística de las diferencias reportadas en la precisión de ML. Cuando aplicamos esta prueba para evaluar la diferencia del 4.5% en la Precisión de Prueba Limpia entre el Prompt A vs. B en nuestros 700 ejemplos de texto, la diferencia es altamente estadísticamente significativa (valor-p = 0.007, X² = 7.086). Por lo tanto, todas las pruebas sugieren que el Prompt B es una opción significativamente mejor, no deberíamos haber fallado al seleccionarlo al auditar cuidadosamente nuestros datos de prueba originales.

¿Es solo un resultado fortuito que solo sucedió para estos dos prompts?

Veamos otros tipos de prompts también para ver si los resultados fueron simplemente coincidentales para nuestra pareja de prompts de cadena de pensamiento.

Prompts de instrucción

Este tipo de prompt simplemente proporciona una instrucción al LLM sobre lo que necesita hacer con el ejemplo de texto dado. Considere el siguiente par de tales prompts entre los que podríamos querer elegir.

Prompts de pocos disparos

Este tipo de prompt utiliza dos instrucciones, un prefijo y un sufijo, y también incluye dos ejemplos (preseleccionados) del corpus de texto para proporcionar demostraciones claras al LLM de la asignación de entrada-salida deseada. Considere el siguiente par de tales prompts entre los que podríamos querer elegir.

Prompts con plantilla

Este tipo de prompt utiliza dos instrucciones, un prefijo opcional y un sufijo, además de un formato de opción múltiple para que el modelo realice la clasificación como una respuesta de opción múltiple en lugar de responder directamente con una clase predicha. Considere el siguiente par de tales prompts entre los que podríamos querer elegir.

Resultados para varios tipos de prompts

Más allá de la cadena de pensamiento, también evaluamos el rendimiento de clasificación del mismo LLM FLAN-T5 con estos tres tipos adicionales de prompts. Al trazar la Precisión de Prueba Observada vs. la Precisión de Prueba Limpia lograda con todos estos prompts a continuación, vemos muchas parejas de prompts que sufren del mismo problema mencionado anteriormente, donde confiar en la Precisión de Prueba Observada conduce a seleccionar el prompt que en realidad es peor.

Como ingeniero de prompts que utiliza los datos de prueba disponibles, elegiría el prompt A gris en la esquina superior izquierda (mayor precisión observada) sin embargo, el prompt óptimo es el prompt B gris en la esquina superior derecha (mayor precisión limpia).

Basándonos únicamente en la Precisión de Prueba Observada, estaríamos inclinados a seleccionar cada uno de los prompts “A” sobre los prompts “B” entre cada tipo de prompt. Sin embargo, el prompt mejor para cada uno de los tipos de prompts es realmente el prompt B (que tiene una mayor Precisión de Prueba Limpia). Cada una de estas parejas de prompts destaca la necesidad de verificar la calidad de los datos de prueba, de lo contrario, puede tomar decisiones subóptimas debido a problemas de datos como anotaciones ruidosas.

Todos los prompts A parecen ser mejores debido a su mayor precisión observada, sin embargo, todos los prompts B son objetivamente mejores cuando se evalúan en los datos de prueba de verdad en el terreno.

También se puede ver en esta gráfica cómo todas las precisión de las A observadas están circuladas, lo que significa que tienen una precisión más alta que sus contrapartes B. De manera similar, todas las precisión de las B están circuladas, lo que significa que tienen una precisión más alta que sus contrapartes A. Al igual que en el ejemplo simple al principio de este artículo, estarías inclinado a elegir todas las A, cuando en realidad las B hacen un trabajo mucho mejor.

Mejorando los datos de prueba disponibles para una evaluación más confiable

Con suerte, la importancia de los datos de evaluación de alta calidad es clara. Veamos algunas formas en que podrías solucionar los datos de prueba disponibles.

Corrección manual

¡La forma más fácil de garantizar la calidad de sus datos de prueba es simplemente revisarlos a mano! Asegúrese de revisar cada uno de los ejemplos para verificar que esté etiquetado correctamente. Dependiendo del tamaño de su conjunto de prueba, esto puede ser posible o no. Si su conjunto de prueba es relativamente pequeño (~ 100 ejemplos), podría simplemente mirarlos y hacer las correcciones necesarias. Si su conjunto de prueba es grande (1000+ ejemplos), esto sería demasiado tiempo y mentalmente agotador para hacerlo a mano. ¡Nuestro conjunto de prueba es bastante grande, por lo que no usaremos este método!

Corrección algorítmica

Otra forma de evaluar su conjunto de prueba disponible (posiblemente ruidoso) es utilizar algoritmos de inteligencia artificial centrados en los datos para diagnosticar problemas que se pueden corregir para obtener una versión más confiable del mismo conjunto de datos (sin tener que recopilar muchas anotaciones humanas adicionales). Aquí usamos algoritmos de aprendizaje confiable (a través del paquete de código abierto cleanlab) para verificar nuestros datos de prueba, que estiman automáticamente qué ejemplos parecen estar mal etiquetados. Luego inspeccionamos solo estos problemas de etiqueta auto-detectados y corregimos sus etiquetas según sea necesario para producir una versión de mayor calidad de nuestro conjunto de datos de prueba. Llamamos a las mediciones de precisión del modelo realizadas sobre esta versión del conjunto de datos de prueba, la precisión de la prueba CL.

La precisión de la prueba CL es mayor para todas las indicaciones B. Usando CL corregimos los datos de prueba originales y ahora podemos confiar en nuestras decisiones de modelo e indicaciones.

Usando este nuevo conjunto de prueba corregido por CL para la evaluación del modelo, vemos que todas las indicaciones B de antes ahora muestran una precisión más alta que sus contrapartes A. Esto significa que podemos confiar en nuestras decisiones basadas en el conjunto de prueba corregido por CL para ser más confiables que aquellas basadas en los datos de prueba originales ruidosos.

Por supuesto, el aprendizaje confiable no puede identificar mágicamente todos los errores en cualquier conjunto de datos. Cuán bien detecta este algoritmo errores de etiquetado dependerá de tener predicciones razonables de un modelo de aprendizaje automático de línea de base e incluso entonces, ciertos tipos de errores introducidos sistemáticamente seguirán siendo indetectables (por ejemplo, si intercambiamos la definición de dos clases por completo). Para la lista precisa de supuestos matemáticos bajo los cuales el aprendizaje confiable puede demostrarse efectivo, consulte el artículo original de Northcutt et al. Para muchos conjuntos de datos de texto / imagen / audio / tabulares del mundo real, este algoritmo parece ofrecer al menos una forma efectiva de enfocar los recursos limitados de revisión de datos en los ejemplos más sospechosos acechando en un conjunto de datos grande.

No siempre es necesario gastar tiempo / recursos para crear un conjunto de evaluación “perfecto”: el uso de algoritmos como el aprendizaje confiable para diagnosticar y corregir posibles problemas en su conjunto de prueba disponible puede proporcionar datos de alta calidad para garantizar selecciones de modelo e indicaciones óptimas.

Todas las imágenes, a menos que se indique lo contrario, son del autor.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA presenta Point-Bind un modelo de multimodalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video

En el actual panorama tecnológico, la visión 3D ha emergido como una estrella en ascenso, capturando el foco de atenc...

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

En el paisaje en constante evolución de la tecnología, la Inteligencia Artificial (IA) se erige como una frontera mon...

Inteligencia Artificial

Google IA presenta Mirasol3B un modelo autoregresivo multimodal para el aprendizaje a través de modalidades de audio, video y texto

En el amplio campo del aprendizaje automático, decodificar las complejidades incrustadas en diversas modalidades, com...

Inteligencia Artificial

Buscar inteligentemente el contenido de Drupal utilizando Amazon Kendra

Amazon Kendra es un servicio de búsqueda inteligente impulsado por aprendizaje automático (ML). Amazon Kendra te ayud...

Ciencias de la Computación

Cómo la inteligencia artificial protege (y ataca) tu bandeja de entrada.

Las empresas, como Google, están buscando formas en que la inteligencia artificial y el aprendizaje automático puedan...

Inteligencia Artificial

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

La traducción de voz a voz (S2ST, por sus siglas en inglés) ha sido una tecnología transformadora para romper las bar...