Conoce Embroid Un método de IA para unir un LLM con información de incrustación de múltiples modelos más pequeños, lo que permite corregir automáticamente las predicciones del LLM sin supervisión.

Embroid es un método de IA que combina un LLM con información de múltiples modelos más pequeños para corregir automáticamente las predicciones del LLM sin supervisión.

Imagina que has programado un modelo de lenguaje (LM) para realizar análisis de datos básicos sobre los historiales médicos y de medicamentos. Necesitarías datos etiquetados para entrenar tu modelo de aprendizaje automático, incluyendo datos de diversos historiales de pacientes. Construir un conjunto de datos etiquetados grande es bastante difícil. Requeriría etiquetado manual con expertos en el dominio, lo cual es costoso. ¿Cómo lidiarías con estos modelos?

Investigadores de la Universidad de Stanford, Anthropic y la Universidad de Wisconsin-Madison lo abordan diseñando modelos de lenguaje para aprender tareas de anotación en contexto y reemplazar el etiquetado manual a gran escala. Las capacidades en contexto de los LM permiten que el modelo recuerde tareas a partir de la descripción de las indicaciones. Intentan modificar la predicción de una indicación en lugar de la indicación misma, porque los modelos de lenguaje son sensibles incluso a cambios pequeños en el lenguaje de la indicación y pueden producir predicciones erróneas.

El enfoque de los investigadores se basa en la intuición de que las predicciones precisas también deberían ser consistentes. Muestras similares bajo algunas representaciones de características recibirían la misma predicción de indicación. Proponen un método llamado “Embroid”, que calcula múltiples representaciones de un conjunto de datos bajo diferentes funciones de incrustación y utiliza la consistencia entre las predicciones de LM para identificar predicciones incorrectas. Utilizando estos vecindarios, Embroid crea entonces predicciones adicionales para cada muestra. Estas se combinan además con un modelo gráfico de variables simples para determinar la predicción corregida final.

Una pregunta trivial que se puede hacer es cómo mejorará el rendimiento de Embroid con el cambio en el tamaño del conjunto de datos. Los investigadores dicen que Embroid se basa en los vecinos más cercanos en diferentes espacios de incrustación, por lo que podrían esperar que el rendimiento sea pobre cuando el conjunto de datos anotado es pequeño. Los investigadores también compararon la variación en el rendimiento cuando cambió la especificidad del dominio de la incrustación y la calidad del espacio de incrustación. Encuentran que en ambos casos, supera a los modelos de lenguaje habituales.

Los investigadores dicen que Embroid también utiliza técnicas estadísticas desarrolladas con supervisión débil. Su objetivo en la supervisión débil es generar etiquetas probabilísticas para datos no etiquetados combinando las predicciones de múltiples ruidos. Dicen que utiliza incrustaciones para construir predicciones sintéticas adicionales, que se combinarán con las predicciones originales.

Los investigadores comparan Embroid con otros seis LM para hasta 95 tareas diferentes. Para cada LM, seleccionaron tres combinaciones de demostraciones en contexto, generaron predicciones para cada indicación y aplicaron Embroid de forma independiente a la predicción de cada indicación. Descubrieron que esto mejoró el rendimiento sobre la indicación original en un promedio de 7.3 puntos por tarea en el GPT-JT y 4.9 puntos por tarea en el GPT-3.5.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Introducción al Aprendizaje Automático Explorando sus muchas formas

En estos días, el aprendizaje automático está en todas partes, ¿verdad? Si estás aquí, es muy probable que tengas cur...

Inteligencia Artificial

Conoce MovieChat un innovador sistema de comprensión de video que integra modelos fundamentales de video y grandes modelos de lenguaje.

Los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han avanzado considerablemente en el sector de Proces...