Descifrando los misterios de los modelos de lenguaje grandes un análisis detallado de las funciones de influencia y su escalabilidad

Análisis detallado de funciones de influencia y escalabilidad en modelos de lenguaje grandes

Los modelos de lenguaje grandes (LLMs) han acelerado el desarrollo en varios campos del mundo real y han demostrado habilidades emergentes inesperadas, incluido el aprendizaje en contexto y el razonamiento de pensamiento en cadena. Sin embargo, este desarrollo tiene varios peligros, desde preocupaciones a corto plazo como sesgos sociales, filtraciones de datos y desinformación hasta peligros a largo plazo planteados por sistemas de IA potentes. Como función tanto de la escala como del grado de ajuste fino, también se ha demostrado que los LLMs alteran varios aspectos psicológicos y de comportamiento. Para navegar por estos peligros, es necesario tener una idea del funcionamiento de los modelos.

¿Es un LLM simplemente repitiendo (o uniendo) pasajes del conjunto de entrenamiento cuando produce información que sabe que es falsa, resuelve correctamente problemas aritméticos o de programación o le pide al usuario que no lo apague? ¿O está creando nuevas conexiones entre sus reservas de conocimiento mientras construye un modelo global completo? Las respuestas diferentes a estos problemas afectarán significativamente las predicciones del desarrollo de las capacidades de IA y las estrategias para integrar los sistemas de IA con las preferencias humanas. Ingeniería inversa detallada del circuito del modelo es un método bottom-up para adquirir una idea de él.

Se han descubierto cabezales de inducción, un proceso para replicar comportamientos, y otros mecanismos mediante los cuales el modelo podría aprender superposiciones no interpretables de características en la interpretabilidad mecanicista. Los investigadores han propuesto técnicas mediante las cuales las redes de Hopfield, los pesos rápidos, la regresión dispersa, el descenso de gradiente, los autómatas o los programas informáticos sencillos podrían implementarse a través de los transformadores. Aunque estas evaluaciones proporcionan información valiosa, a menudo se realizan en sistemas pequeños y simplificados. Probablemente se necesitaría una ingeniería inversa exhaustiva de un cálculo complicado que involucre miles de millones de parámetros para conectarlos con los fenómenos de alto nivel que nos fascinan de los LLMs.

Como alternativa, podrían comenzar con las relaciones de entrada-salida del modelo y acercarse. El beneficio de esto es que uno puede usar modelos grandes para explorar directamente fenómenos de interés. Desafortunadamente, hacer juicios sólidos basados ​​en muestras y probabilidades del modelo es desafiante ya que cualquier resultado dado es consistente con una amplia gama de procesos de aprendizaje, desde la simple memorización hasta la resolución original de problemas. Van más allá de las posibilidades y muestras básicas para avanzar en la metodología de arriba hacia abajo. Buscan cuantificar lo contrafactual: ¿Cómo se comportaría el modelo si el conjunto de entrenamiento incluyera una secuencia específica? Las funciones de influencia, un método estadístico tradicional incorporado al aprendizaje profundo, abordan esta preocupación contrafactual. Las funciones de influencia buscan específicamente acercarse a una representación pequeña de este contrafactual. Investigadores de la Universidad de Toronto y el Vector Institute están analizando generalizaciones de modelos de lenguaje grandes utilizando funciones de influencia.

Ellos creen que esta es una fuente crucial de evidencia para casi cualquier comportamiento de alto nivel que les interese comprender; al identificar las secuencias de entrenamiento que tienen un impacto significativo, pueden distinguir entre diversas explicaciones de cómo se produjo la salida y arrojar luz sobre los tipos de estructura que se generalizan o no se generalizan a partir de ejemplos de entrenamiento. Si bien las funciones de impacto han proporcionado algunas ideas a redes neuronales a pequeña escala, escalarlas a modelos grandes es un desafío. Calcular un producto inverso de Hessiano-vector (IHVP) es uno de los cuellos de botella computacionales; esto generalmente implica ejecutar un solucionador de sistemas lineales iterativos durante potencialmente miles de pasos, cada uno comparable al costo de un cálculo de gradiente.

Otro cuello de botella es la necesidad de calcular los gradientes de todas las instancias de entrenamiento consideradas, lo cual normalmente debe hacerse de manera independiente para cada consulta de influencia. Hasta la fecha, los transformadores de visión con 300 millones de parámetros han sido los modelos más grandes a los que se les han aplicado funciones de influencia. Ofrecen un método para escalar los cálculos de funciones de influencia a modelos de lenguaje de transformador enormes (se investigan hasta 52 mil millones de parámetros). Su estrategia se basa en técnicas de vanguardia para el cálculo de gradientes de entrenamiento y el cálculo de IHVP, los dos cuellos de botella de cálculo mencionados anteriormente.

Enumeran algunas de sus conclusiones clave de la siguiente manera:

1. A pesar de ser considerablemente más rápido, EK-FAC es competitivo en términos de precisión de estimación de influencia con el método LiSSA más establecido.

2. La distribución de la influencia tiene una cola fuerte, y la cola de la distribución generalmente sigue una ley de potencias. En lugar de centrarse en un número pequeño de secuencias, el efecto se distribuye en muchas de ellas, lo que sugiere que los comportamientos típicos del modelo no son el resultado directo de memorizar un número reducido de secuencias.

3. En comparación con los modelos más pequeños, los modelos más grandes generalizan consistentemente a un mayor grado de abstracción. Algunos ejemplos son el juego de roles, la programación, el razonamiento matemático y la generalización translingüística.

4. La influencia se distribuye de manera uniforme en las diferentes capas de la red. Sin embargo, varios niveles muestran patrones de generalización distintos, con las capas intermedias concentrándose en patrones más abstractos mientras que las capas superiores e inferiores están más relacionadas con los tokens.

5. Las funciones de efecto demuestran una sensibilidad inesperada al orden de las palabras a pesar de los patrones de generalización avanzados observados en general. En particular, las secuencias de entrenamiento solo tienen un impacto significativo cuando las palabras asociadas con la indicación están antes que las asociadas con la completación.

6. Ejemplos o descripciones de comportamientos comparables en el conjunto de entrenamiento tuvieron el mayor efecto en el comportamiento de juego de roles, lo que demuestra que la imitación en lugar de la planificación compleja es la causa de los comportamientos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Es verdaderamente seguro el IA multilingüe? Exponiendo las vulnerabilidades de los grandes modelos de lenguaje en idiomas con recursos limitados

GPT-4 tiene como predeterminación decir: “Lo siento, pero no puedo ayudar con eso”, en respuesta a solici...

Ciencia de Datos

Motivando la Autoatención

¿Por qué necesitamos consultas, claves y valores? Desentrañando el mecanismo de auto-atención de una manera menos abr...

Inteligencia Artificial

Esta investigación de IA revoluciona el diseño del modulador Mach-Zehnder de silicio a través del aprendizaje profundo y algoritmos evolutivos

Los requisitos de capacidad de transmisión de red han aumentado debido a la popularidad de Netflix y el IoT y la tran...

Inteligencia Artificial

Hitos alcanzados en la nueva arquitectura de la computación cuántica

Los científicos han extendido el tiempo de coherencia para una clase única de bit cuántico (qubit) a 0.1 milisegundos...

Inteligencia Artificial

Descifrando el comportamiento colectivo Cómo la inferencia bayesiana activa impulsa los movimientos naturales de los grupos de animales

El fenómeno del movimiento colectivo en animales observado en actividades como los enjambres de langostas, los cardúm...