Investigadores de Google DeepMind proponen 6 transformaciones componibles para aumentar de forma incremental el tamaño de las redes neuronales basadas en Transformers mientras se preserva la funcionalidad.

Investigadores de Google DeepMind proponen 6 transformaciones para aumentar el tamaño de las redes neuronales basadas en Transformers de forma incremental y preservando la funcionalidad.

Las redes neuronales basadas en transformadores han recibido mucha atención últimamente porque funcionan bien. La traducción automática, la creación de texto y la respuesta a preguntas son solo algunas de las actividades de procesamiento del lenguaje natural para las cuales la arquitectura de transformador (ver figura 1) ha surgido como el estándar de la industria. La eficacia de los modelos basados en transformadores no se limita al procesamiento del lenguaje natural; también se han utilizado con éxito en varios otros campos, como el reconocimiento de voz, la visión por computadora y los sistemas de recomendación. Los modelos de base de lenguaje, visión y multimodales más grandes, son los más complejos y efectivos de estos modelos, con miles de millones a billones de parámetros.

Cada nuevo modelo, sin embargo, suele ser enseñado desde el principio sin aprovechar las habilidades aprendidas por modelos anteriores más pequeños entrenados. Además, el tamaño del modelo se mantiene constante durante el entrenamiento. Debido a la mayor cantidad de datos de entrenamiento requeridos, el costo computacional del entrenamiento aumenta cuadráticamente con el tamaño del modelo. Reutilizar parámetros de un modelo preentrenado o aumentar dinámicamente el tamaño de un modelo durante el entrenamiento podría reducir el costo total del entrenamiento. Sin embargo, no es fácil hacerlo sin sacrificar el progreso del entrenamiento. Se proporcionan transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores para resolver estas restricciones.

Estas transformaciones aumentan el tamaño del modelo y, por lo tanto, la capacidad potencial del modelo sin cambiar su funcionalidad, lo que permite continuar el entrenamiento. Estas transformaciones componibles operan en dimensiones independientes de la arquitectura, lo que permite una expansión arquitectónica detallada. Algunos trabajos anteriores también han propuesto transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores, extendiendo técnicas para modelos de convolución y densos más pequeños.

La figura 1 muestra cómo se muestra una red neuronal típica basada en el diseño del transformador.

En este estudio, investigadores de Google DeepMind y de la Universidad de Toulouse desarrollan un marco que es la colección más extensa y modular de transformaciones que conservan la función. Las seis contribuciones del documento son las seis transformaciones que conservan la función y se aplican a las arquitecturas de transformador. Son las siguientes:

  1. El tamaño de la representación interna de la MLP
  2. El número de cabezas de atención
  3. El tamaño de la representación de salida para las cabezas de atención
  4. El tamaño de la representación de entrada de atención
  5. El tamaño de las representaciones de entrada/salida para las capas del transformador
  6. Número de capas

Se demuestra cómo se logra la propiedad de conservación de la función precisa para cada transformación con las restricciones mínimas posibles en la inicialización de los parámetros adicionales. Los autores han discutido todas estas contribuciones en detalle en el documento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a HyperHuman Un nuevo marco de IA para la generación hiperrealista de humanos con difusión estructural latente.

La generación de imágenes hiperrealistas de humanos a partir de condiciones definidas por el usuario, como texto y po...

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

La industria de los datos de ubicación está en rápido crecimiento pero aún en su infancia técnica. La mayoría de los ...

Inteligencia Artificial

Los estados están pidiendo más clases de ciencias de la computación. Ahora necesitan maestros

Code.org informó que para el 2022, cada estado de Estados Unidos tenía una ley o política que promovía la educación e...

Inteligencia Artificial

Investigadores de Google AI presentan MADLAD-400 un conjunto de datos de dominio web con tokens de 2.8T que abarca 419 idiomas.

En el campo en constante evolución del Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés), el desarro...

Investigación

Entrenando máquinas para aprender más como lo hacen los humanos

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a represent...

Inteligencia Artificial

Investigadores de la Universidad de Pekín presentan FastServe un sistema de servicio de inferencia distribuida para modelos de lenguaje grandes (LLMs).

Las mejoras en los modelos de lenguaje grandes (LLM) crean oportunidades en diversos campos e inspiran una nueva ola ...