La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.

La Iniciativa 'Encontrando Neuronas en un Pajar' emplea la Exploración Escasa en el MIT, Harvard y la Universidad Northeastern.

Es común pensar en las redes neuronales como “extractores de características” adaptables que aprenden refinando progresivamente representaciones adecuadas a partir de entradas iniciales en bruto. Entonces, surge la pregunta: ¿qué características se están representando y de qué manera? Para comprender mejor cómo se describen las características de alto nivel e interpretables por humanos en las activaciones neuronales de los LLMs, un equipo de investigación del Instituto Tecnológico de Massachusetts (MIT), la Universidad de Harvard (HU) y la Universidad Northeastern (NEU) propone una técnica llamada prueba dispersa.

Por lo general, los investigadores entrenan un clasificador básico (una sonda) en las activaciones internas de un modelo para predecir una propiedad de la entrada y luego examinan la red para ver si representa y dónde representa la característica en cuestión. El método de prueba dispersa sugerido busca más de 100 variables para localizar las neuronas relevantes. Este método supera las limitaciones de los métodos de prueba anteriores y arroja luz sobre la estructura compleja de los LLMs. Limita al clasificador de prueba a utilizar no más de k neuronas en su predicción, donde k puede variar entre 1 y 256.

El equipo utiliza técnicas de predicción dispersa óptima de última generación para demostrar la optimalidad pequeña-k del subproblema de selección de características k-esparsas y abordar la confusión entre la clasificación y la precisión de clasificación. Utilizan la dispersión como un sesgo inductivo para asegurar que sus sondas puedan mantener una fuerte simplicidad previa y localizar las neuronas clave para un examen detallado. Además, la técnica puede generar una señal más confiable de si una característica específica se representa explícitamente y se utiliza aguas abajo porque una escasez de capacidad impide que sus sondas memoricen patrones de correlación conectados con características de interés.

El grupo de investigación utilizó LLMs transformadores autoregresivos en su experimento, informando sobre los resultados de clasificación después de entrenar sondas con diferentes valores de k. Concluyen lo siguiente a partir del estudio:

  • Las neuronas de los LLMs contienen una gran cantidad de estructura interpretable, y la prueba dispersa es una forma eficiente de localizarlas (incluso en superposición). Sin embargo, debe usarse con precaución y seguirse con un análisis si se van a obtener conclusiones rigurosas.
  • Cuando muchas neuronas en la primera capa se activan para n-gramos y patrones locales no relacionados, las características se codifican como combinaciones lineales dispersas de neuronas polisémicas. Las estadísticas de peso y las ideas de modelos de juguete también nos llevan a concluir que el 25% inicial de las capas completamente conectadas utilizan extensivamente la superposición.
  • Aunque las conclusiones definitivas sobre la monosemanticidad siguen estando fuera del alcance metodológico, las neuronas mono-semánticas, especialmente en las capas intermedias, codifican propiedades contextuales y lingüísticas de nivel superior (como es_python_code).
  • Aunque la dispersión de representación tiende a aumentar a medida que los modelos se vuelven más grandes, esta tendencia no se cumple en todos los casos; algunas características emergen con neuronas dedicadas a medida que el modelo crece, mientras que otras se dividen en características más detalladas a medida que el modelo crece, y muchas otras no cambian o llegan de manera bastante aleatoria.

Algunos beneficios de la prueba dispersa

  • El riesgo potencial de confundir la calidad de clasificación con la calidad de clasificación al investigar neuronas individuales con sondas se aborda aún más con la disponibilidad de sondas con garantías de optimalidad.
  • Además, las sondas dispersas están diseñadas para tener una capacidad de almacenamiento baja, por lo que hay menos motivo de preocupación acerca de que la sonda pueda aprender la tarea por sí misma.
  • Para realizar la prueba, necesitarás un conjunto de datos supervisado. Sin embargo, una vez que hayas construido uno, puedes usarlo para interpretar cualquier modelo, lo que abre la puerta a investigaciones sobre la universalidad de los circuitos aprendidos y la hipótesis de abstracciones naturales.
  • En lugar de depender de evaluaciones subjetivas, se puede utilizar para examinar automáticamente cómo diferentes elecciones arquitectónicas afectan la aparición de polisemántica y superposición.

La prueba dispersa tiene sus limitaciones

  • Solo se pueden hacer inferencias sólidas a partir de los datos del experimento de prueba con una investigación secundaria adicional de las neuronas identificadas.
  • Debido a su sensibilidad a los detalles de implementación, anomalías, malas especificaciones y correlaciones engañosas en el conjunto de datos de prueba, la prueba proporciona una visión limitada de la causalidad.
  • Especialmente en términos de interpretabilidad, las sondas dispersas no pueden reconocer características construidas en varias capas o diferenciar entre características en superposición y características representadas como la unión de numerosas características distintas y más detalladas.
  • Puede ser necesario un podado iterativo para identificar todas las neuronas significativas si la prueba dispersa no las encuentra debido a la redundancia en el conjunto de datos de prueba. El uso de características multi-token requiere un procesamiento especializado, comúnmente implementado utilizando agregaciones que podrían diluir aún más la especificidad del resultado.

Utilizando una revolucionaria técnica de sondeo disperso, nuestro trabajo revela una gran cantidad de estructuras ricas y comprensibles para los seres humanos en LLMs. Los científicos planean construir un extenso repositorio de conjuntos de datos de sondeo, posiblemente con la ayuda de la inteligencia artificial, que registren detalles especialmente pertinentes para el sesgo, la justicia, la seguridad y la toma de decisiones de alto riesgo. Animan a otros investigadores a unirse en la exploración de esta “interpretabilidad ambiciosa” y argumentan que un enfoque empírico evocador de las ciencias naturales puede ser más productivo que los típicos bucles experimentales de aprendizaje automático. Contar con conjuntos de datos supervisados vastos y diversos permitirá mejorar las evaluaciones de la próxima generación de técnicas de interpretabilidad no supervisadas que serán necesarias para mantenerse al día con el avance de la inteligencia artificial, además de automatizar la evaluación de nuevos modelos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #56

Esta semana vimos varios nuevos competidores en el mundo de los LLMs, tanto en modelos de código abierto como cerrado...

Ciencias de la Computación

Robots de entrega de comida de Uber Eats listos para ser utilizados en múltiples ciudades de EE. UU.

La compañía de robots de servicio Serve Robotics informó que Uber Eats desplegará hasta 2,000 de sus robots de entreg...

Inteligencia Artificial

Automatiza la preetiquetado de PDFs para Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que proporcion...

Aprendizaje Automático

3 preguntas Jacob Andreas sobre modelos de lenguaje grandes

El científico de CSAIL describe la investigación de procesamiento de lenguaje natural a través de modelos avanzados d...

Inteligencia Artificial

Anguila robot revela cómo los peces nadan tan eficientemente

Investigadores del Instituto Federal de Tecnología de Lausana, Suiza, han desarrollado un robot impermeable parecido ...

Ciencia de Datos

Motivando la Autoatención

¿Por qué necesitamos consultas, claves y valores? Desentrañando el mecanismo de auto-atención de una manera menos abr...