Conoce a RAVEN un modelo de lenguaje codificador-decodificador con mejora en la recuperación que aborda las limitaciones de ATLAS.

Conoce a RAVEN, un modelo de lenguaje mejorado que soluciona las limitaciones de ATLAS.

Los grandes modelos de lenguaje (LLMs) han desempeñado un papel importante en los últimos avances en el campo del Procesamiento del Lenguaje Natural (NLP). Estos modelos han demostrado habilidades asombrosas en una amplia gama de tareas y han impulsado significativamente la popularidad de la Inteligencia Artificial. Su capacidad para aprender en contexto es un componente crítico de su grandeza, ya que mediante la utilización de la información contextual que se ofrece, el aprendizaje en contexto permite que estos LLMs se adapten a nuevas actividades y dominios sin necesidad de una adaptación específica de la tarea. Con la ayuda de eso, los LLMs también han logrado destacar en situaciones que involucran aprendizaje de cero o pocas muestras, donde solo se dispone de un pequeño número de ejemplos.

Investigaciones recientes han estudiado el potencial del aprendizaje en contexto en modelos de lenguaje codificador-decodificador con recuperación mejorada. Se han estudiado las capacidades del modelo ATLAS de vanguardia y se han señalado sus limitaciones, que incluyen principalmente cómo las fases de preentrenamiento y prueba del modelo están desincronizadas y cómo se encuentra limitada la cantidad de información contextual que se puede procesar.

Para abordar eso, un equipo de investigadores de la Universidad de Illinois en Urbana-Champaign, EE. UU., y NVIDIA, EE. UU., ha presentado un paradigma único llamado RAVEN, un modelo de lenguaje codificador-decodificador con recuperación mejorada. Este modelo ha abordado las dificultades presentadas por ATLAS y, con el fin de mejorar su capacidad de aprendizaje en contexto, RAVEN utiliza una estrategia de doble enfoque. La primera parte combina la modelización del lenguaje de prefijo y los métodos de modelización del lenguaje enmascarado con recuperación mejorada. Estas técnicas buscan mejorar la comprensión del modelo y la producción de contenido relevante en contexto al minimizar la diferencia entre los datos de preentrenamiento y prueba.

En segundo lugar, RAVEN ha introducido una mejora denominada Aprendizaje de Fusión en Contexto. El objetivo de este método es mejorar el rendimiento del modelo en escenarios de pocas muestras y se destaca por su capacidad para aumentar la cantidad de ejemplos en contexto que el modelo puede utilizar sin necesidad de modificaciones adicionales o repeticiones de entrenamiento. Esto es esencial porque permite que el modelo utilice la información contextual de manera más efectiva y eficiente.

La fase experimental de la investigación incluye una serie de pruebas y evaluaciones exhaustivas, que se han llevado a cabo para evaluar cómo RAVEN se desempeña en comparación con el modelo ATLAS. Los resultados demuestran que RAVEN supera ampliamente a ATLAS en términos de comprensión del contexto y capacidad para producir respuestas precisas. Aunque utiliza sustancialmente menos parámetros, RAVEN a veces produce resultados que están a la altura de los de los modelos de lenguaje más sofisticados.

El equipo ha resumido sus contribuciones de la siguiente manera.

  • Se ha estudiado a fondo ATLAS, centrándose en su capacidad de aprendizaje en contexto.
  • Se ha presentado RAVEN, un modelo novedoso construido mediante la integración de técnicas de modelización del lenguaje enmascarado con recuperación mejorada y de modelización del lenguaje de prefijo, que tiene como objetivo abordar las limitaciones identificadas en ATLAS.
  • Se han propuesto el Aprendizaje de Fusión en Contexto y la Recuperación de Ejemplos en Contexto para fortalecer el rendimiento en escenarios de pocas muestras de modelos codificador-decodificador con recuperación mejorada como RAVEN. Estos métodos permiten una mejor utilización del contexto sin modificaciones importantes ni entrenamientos adicionales.
  • A través de experimentos exhaustivos, la investigación ha validado la efectividad de RAVEN y las técnicas propuestas, donde los resultados han demostrado el rendimiento superior de RAVEN en diversos escenarios, superando a ATLAS y otros modelos de referencia.

En conclusión, este trabajo destaca cómo los modelos de lenguaje codificador-decodificador con recuperación mejorada, como RAVEN, tienen el potencial de mejorar las capacidades de aprendizaje en contexto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Investigadores de la Universidad del Sur de California, la Universidad de Washington, la Universidad Bar-Ilan y Googl...

Inteligencia Artificial

Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

Wang Xiaochuan, el fundador del motor de búsqueda chino Sogou, ha lanzado un nuevo modelo de lenguaje enorme llamado ...

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...

Inteligencia Artificial

Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Los Grandes Modelos de Lenguaje (LLMs) están avanzando rápidamente y contribuyendo a transformaciones económicas y so...

Inteligencia Artificial

Conoce 3D-VisTA Un Transformer pre-entrenado para alineación de visión 3D y texto que puede adaptarse fácilmente a diversas tareas posteriores.

En el dinámico panorama de la Inteligencia Artificial, los avances están remodelando los límites de lo posible. La fu...