Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes

Este artículo de IA propone un método de generación de memoria para mejorar la consistencia conversacional en modelos de lenguaje grandes.

Los chatbots y otras formas de sistemas de comunicación de dominio abierto han experimentado un aumento de interés e investigación en los últimos años. La configuración de discusión a largo plazo es un desafío ya que requiere conocer y recordar puntos cruciales de conversaciones anteriores.

Los modelos de lenguaje grandes (LLMs) como ChatGPT y GPT-4 han mostrado resultados alentadores en diversas tareas recientes de procesamiento de lenguaje natural. Como resultado, se crean chatbots de dominio abierto/tarea utilizando las capacidades de LLM en la generación de estímulos. Sin embargo, en una discusión prolongada, incluso el ChatGPT puede perder el contexto y proporcionar respuestas inconsistentes.

Investigadores de la Academia China de Ciencias y la Universidad de Sídney investigan si los LLMs pueden utilizarse de manera eficiente en conversaciones a largo plazo sin datos etiquetados ni herramientas adicionales. Los investigadores utilizan LLMs para construir resúmenes recursivos como memoria, donde guardan información crucial de la conversación en curso, inspirándose en enfoques con memoria aumentada. En el uso real, a un LLM inicialmente se le da un breve contexto y se le pide que lo resuma. Luego, el LLM combina las declaraciones anteriores y posteriores para producir un nuevo resumen/memoria. Finalmente, le indican al LLM que decida en función de la información más reciente que ha almacenado.

El esquema propuesto podría servir como una solución factible para permitir que el LLM actual modele el contexto extremadamente largo (sesión de diálogo) sin una costosa expansión de la configuración de longitud máxima y modelar el discurso a largo plazo.

La utilidad del esquema propuesto se demuestra experimentalmente en el conjunto de datos público a largo plazo utilizando la API ChatGPT y text-davinci-003, que son fáciles de usar. Además, el estudio demuestra que el uso de una sola muestra etiquetada puede mejorar significativamente el rendimiento de la estrategia propuesta.

Los investigadores han pedido a un modelo de lenguaje arbitrariamente grande que realice las tareas de gestión de memoria y generación de respuestas. El primero se encarga de resumir de manera iterativa los detalles importantes de la conversación en curso, y el segundo incorpora la memoria para producir una respuesta aceptable.

En este estudio, el equipo ha utilizado únicamente medidas automáticas para juzgar la efectividad de la metodología propuesta, lo cual puede no ser óptimo para los chatbots de dominio abierto. En aplicaciones del mundo real, no pueden ignorar el costo de llamar a modelos enormes, algo que no se tiene en cuenta en su solución.

En el futuro, los investigadores planean probar la efectividad de su enfoque para el modelado de contexto largo en otros trabajos de contexto largo, incluida la producción de historias. También planean mejorar las capacidades de resumen de su método utilizando un LLM afinado localmente supervisado en lugar de una costosa API en línea.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Amazon presentan Fortuna una biblioteca de IA para la cuantificación de la incertidumbre en el aprendizaje profundo

Los recientes avances en los campos de Inteligencia Artificial y Aprendizaje Automático han hecho la vida más fácil p...

Inteligencia Artificial

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

En inteligencia artificial, uno de los desafíos fundamentales ha sido permitir que las máquinas comprendan y generen ...

Ciencia de Datos

Investigadores crean una herramienta para simular con precisión sistemas complejos.

El sistema que desarrollaron elimina una fuente de sesgo en las simulaciones, lo que conduce a algoritmos mejorados q...

Ciencias de la Computación

El nuevo profesor de Ciencias de la Computación de Harvard es un chatbot.

Los estudiantes inscritos en el curso insignia de CS50 de la universidad tendrán como profesor de Inteligencia Artifi...

Inteligencia Artificial

Google Chrome ahora muestra resúmenes de artículos impulsados por IA para una lectura sin esfuerzo

Google está una vez más a la vanguardia de la innovación con su Experiencia Generativa de Búsqueda (SGE) impulsada po...

Inteligencia Artificial

Investigadores de CMU proponen TIDEE Un agente incorporado que puede ordenar habitaciones nunca antes vistas sin ninguna instrucción explícita

La operación efectiva de un robot requiere más que simplemente obedecer ciegamente comandos predefinidos. Los robots ...