Un nuevo enfoque de investigación de Inteligencia Artificial (IA) presenta el Aprendizaje Basado en Instrucciones en Contexto como un problema de aprendizaje de algoritmos desde una perspectiva estadística.

A new approach to Artificial Intelligence (AI) research presents Contextual Instruction-Based Learning as a statistical algorithm learning problem.

El aprendizaje en contexto es un paradigma reciente en el que un modelo de lenguaje grande (LLM) observa una instancia de prueba y algunos ejemplos de entrenamiento como su entrada y decodifica directamente la salida sin actualizar sus parámetros. Este entrenamiento implícito contrasta con el entrenamiento habitual donde los pesos se modifican en función de los ejemplos.

Fuente: https://arxiv.org/pdf/2301.07067.pdf

Aquí surge la pregunta de por qué el aprendizaje en contexto sería beneficioso. Puede suponer que tiene dos tareas de regresión que desea modelar, pero la única limitación es que solo puede usar un modelo para ajustar ambas tareas. Aquí es donde entra en juego el aprendizaje en contexto, ya que puede aprender los algoritmos de regresión por tarea, lo que significa que el modelo utilizará regresiones ajustadas separadas para diferentes conjuntos de entradas.

En el artículo “Transformers as Algorithms: Generalization and Implicit Model Selection in In-context Learning,” han formalizado el problema del aprendizaje en contexto como un problema de aprendizaje de algoritmos. Han utilizado un transformador como algoritmo de aprendizaje que puede ser especializado mediante entrenamiento para implementar otro algoritmo objetivo en el momento de la inferencia. En este artículo, han explorado los aspectos estadísticos del aprendizaje en contexto a través de transformadores y han realizado evaluaciones numéricas para verificar las predicciones teóricas.

En este trabajo, han investigado dos escenarios, en el primero los estímulos están formados por una secuencia de pares independientes e idénticamente distribuidos (entrada, etiqueta), mientras que en el otro la secuencia es una trayectoria de un sistema dinámico (el siguiente estado depende del estado anterior: xm+1 = f(xm) + ruido).  

Ahora surge la pregunta, ¿cómo entrenamos un modelo así?

En la fase de entrenamiento del aprendizaje en contexto, se asocian T tareas con una distribución de datos  {Dt}t=1T. Se muestrean de forma independiente secuencias de entrenamiento St de su distribución correspondiente para cada tarea. Luego, se pasa una subsecuencia de St y un valor x de la secuencia St para hacer una predicción sobre x. Aquí es como el marco de meta-aprendizaje. Después de la predicción, se minimiza la pérdida. La intuición detrás del entrenamiento del aprendizaje en contexto se puede interpretar como la búsqueda del algoritmo óptimo para ajustar la tarea en cuestión.

A continuación, para obtener límites de generalización en el aprendizaje en contexto, se han utilizado algunas condiciones de estabilidad de la literatura de estabilidad de algoritmos. En el aprendizaje en contexto, un ejemplo de entrenamiento en el estímulo influye en las decisiones futuras de los algoritmos a partir de ese punto. Por lo tanto, para lidiar con estas perturbaciones de entrada, era necesario imponer algunas condiciones en la entrada. Puede leer [artículo] para obtener más detalles. La Figura 7 muestra los resultados de los experimentos realizados para evaluar la estabilidad del algoritmo de aprendizaje (en este caso, el Transformer).

Fuente: https://arxiv.org/pdf/2301.07067.pdf

RMTL es el riesgo (~error) en el aprendizaje multi-tarea. Una de las ideas clave del límite derivado es que el error de generalización de ICL puede eliminarse aumentando el tamaño de la muestra n o el número de secuencias M por tarea. Los mismos resultados también se pueden extender a sistemas dinámicos estables.

Fuente: https://arxiv.org/pdf/2301.07067.pdf
Fuente: https://arxiv.org/pdf/2301.07067.pdf

Ahora veamos la verificación de estos límites utilizando evaluaciones numéricas.

Se utiliza la arquitectura GPT-2 que consta de 12 capas, 8 encabezados de atención y una incrustación de 256 dimensiones para todos los experimentos. Los experimentos se realizan en regresión y dinámica lineal.

  1. Regresión lineal: En ambas figuras (2(a) y 2(b)), los resultados del aprendizaje en contexto (Rojo) superan a los resultados de los mínimos cuadrados (Verde) y están perfectamente alineados con la solución óptima de ridge/pesada (Negro punteado). Esto, a su vez, proporciona evidencia de la capacidad de selección automática de modelos de los transformadores al aprender prioridades de tareas.
  2. Sistemas dinámicos parcialmente observados: En las figuras (2(c) y 6), los resultados muestran que el aprendizaje en contexto supera a los resultados de los mínimos cuadrados para casi todos los órdenes H=1,2,3,4 (donde H es el tamaño de la ventana que se desliza sobre la secuencia de estados de entrada para generar la entrada al modelo, similar a la longitud de la subsecuencia)

En conclusión, se demostró con éxito que los resultados experimentales coinciden con las predicciones teóricas. Y para la dirección futura de los trabajos, valdría la pena explorar varias preguntas interesantes.

(1) Los límites propuestos son para el riesgo de MTL. ¿Cómo se pueden controlar los límites de las tareas individuales?

(2) ¿Se pueden extender los mismos resultados de los sistemas dinámicos completamente observados a sistemas dinámicos más generales como el aprendizaje por refuerzo?

(3) A partir de la observación, se concluyó que el riesgo de transferencia depende solo de las tareas de MTL y su complejidad, y es independiente de la complejidad del modelo, por lo que sería interesante caracterizar este sesgo inductivo y qué tipo de algoritmo está siendo aprendido por el transformador.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

DALL·E 3 está aquí con integración de ChatGPT

Adéntrate en cómo el nuevo generador de imágenes de OpenAI, DALL·E 3, está empujando los límites y descubre cómo está...

Inteligencia Artificial

Conoce a MPT-7B un nuevo modelo de lenguaje de código abierto entrenado en 1T tokens de texto y código seleccionados por MosaicML.

MosaicML ha lanzado recientemente una herramienta revolucionaria, MPT-7B, para transformar la forma en que las empres...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #71

Esta semana, el presidente Joe Biden volvió a poner la regulación de la inteligencia artificial en el punto de mira a...

Inteligencia Artificial

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

Con Meta revelando recientemente planes para construir un modelo de chat que competirá con GPT-4, y el lanzamiento de...