Microsoft y los investigadores de Columbia proponen LLM-AUGMENTER un sistema de inteligencia artificial que aumenta un LLM de caja negra con un conjunto de módulos plug-and-play
Microsoft y Columbia proponen LLM-AUGMENTER, un sistema de IA que aumenta un LLM de caja negra con módulos plug-and-play.
Los grandes modelos de lenguaje (LLMs), como GPT-3, son ampliamente reconocidos por su capacidad para generar textos coherentes e informativos en lenguaje natural debido a su vasta cantidad de conocimiento mundial. Sin embargo, codificar este conocimiento en LLMs es imperfecto y puede llevar a distorsiones de memoria, lo que resulta en alucinaciones que pueden ser perjudiciales para tareas críticas. Además, los LLMs no pueden codificar toda la información necesaria para algunas aplicaciones, lo que los hace inadecuados para tareas sensibles al tiempo, como responder preguntas de noticias. Aunque se han propuesto varios métodos para mejorar los LLMs utilizando conocimiento externo, estos suelen requerir ajustar finamente los parámetros de los LLMs, lo que puede ser prohibitivamente costoso. En consecuencia, existe la necesidad de módulos plug-and-play que se puedan agregar a un LLM fijo para mejorar su rendimiento en tareas críticas.
El artículo propone un sistema llamado LLM-AUGMENTER que aborda los desafíos de aplicar Modelos de Lenguaje Grandes (LLMs) a aplicaciones críticas. El sistema está diseñado para mejorar un LLM de caja negra con módulos plug-and-play para fundamentar sus respuestas en conocimiento externo almacenado en bases de datos específicas de la tarea. También incluye una revisión iterativa de las indicaciones utilizando comentarios generados por funciones de utilidad para mejorar la puntuación de factualidad de las respuestas generadas por el LLM. La efectividad del sistema se valida empíricamente en diálogos orientados a tareas y escenarios de preguntas y respuestas de dominio abierto, donde reduce significativamente las alucinaciones sin sacrificar la fluidez y la informatividad de las reacciones. El código fuente y los modelos del sistema están disponibles públicamente.
El proceso de LLM-Augmenter involucra tres pasos principales. En primer lugar, al recibir una consulta del usuario, recupera evidencia de fuentes de conocimiento externas como búsquedas en la web o bases de datos específicas de la tarea. También puede conectar la evidencia cruda recuperada con el contexto relevante y razonar sobre la concatenación para crear “cadenas de evidencia”. En segundo lugar, LLM-Augmenter solicita a un LLM fijo como ChatGPT utilizando la evidencia consolidada para generar una respuesta fundamentada en la evidencia. Por último, LLM-Augmenter verifica la respuesta generada y crea un mensaje de retroalimentación correspondiente. Este mensaje de retroalimentación modifica e itera la consulta de ChatGPT hasta que la respuesta del candidato cumpla con los requisitos de verificación.
- La Fascinante Evolución de la Inteligencia Artificial Generativa
- Enel automatiza la gestión de activos de la red eléctrica a gran escala y la detección de anomalías utilizando Amazon SageMaker
- Las mejores herramientas de IA para proteger tu futuro (2023)
El trabajo presentado en este estudio muestra que el enfoque de LLM-Augmenter puede mejorar eficazmente los LLMs de caja negra con conocimiento externo pertinente a sus interacciones con los usuarios. Esta mejora reduce en gran medida el problema de las alucinaciones sin comprometer la fluidez y la calidad informativa de las respuestas generadas por los LLMs.
El rendimiento de LLM-AUGMENTER se evaluó en tareas de diálogo de búsqueda de información utilizando métricas automáticas y evaluaciones humanas. Se utilizaron métricas comúnmente utilizadas, como Knowledge F1 (KF1) y BLEU-4, para evaluar la superposición entre la salida del modelo y la respuesta humana de referencia y la superposición con el conocimiento que el humano utilizó como referencia durante la recopilación de datos. Además, los investigadores incluyeron estas métricas que mejor se correlacionan con el juicio humano en las tareas de soporte al cliente DSTC9 y DSTC11. También se consideraron otras métricas, como BLEURT, BERTScore, chrF y BARTScore, ya que son algunas de las métricas de generación de texto de mejor rendimiento en el diálogo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Guía paso a paso de Word2Vec con Gensim
- Desbloquea el éxito de DataOps con DataOps.live ¡Destacado en la Guía de Mercado de Gartner!
- Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos
- Soluciones eficientes de k-Nearest Neighbors (k-NN) con NumPy
- Profundización en la Interpretabilidad de Modelos con PFI
- Comprendiendo los fundamentos de las redes neuronales y el aprendizaje profundo
- Explorando el poder y las limitaciones de GPT-4