Modelos de Lenguaje Grandes ¿Una Nueva Ley de Moore?

'Modelos de Lenguaje Grandes ¿Nueva Ley de Moore?'

Hace unos días, Microsoft y NVIDIA presentaron Megatron-Turing NLG 530B, un modelo basado en Transformers aclamado como “el modelo generativo de lenguaje más grande y potente del mundo”.

Este es un impresionante ejemplo de ingeniería de aprendizaje automático, no hay duda al respecto. Sin embargo, ¿deberíamos emocionarnos por esta tendencia de los mega-modelos? Yo, por mi parte, no lo estoy. Aquí está el motivo.

Este es tu cerebro en el aprendizaje profundo

Los investigadores estiman que el cerebro humano contiene en promedio 86 mil millones de neuronas y 100 billones de sinapsis. Es seguro suponer que no todas están dedicadas al lenguaje. Curiosamente, se espera que GPT-4 tenga alrededor de 100 billones de parámetros… Por muy burda que sea esta analogía, ¿no deberíamos preguntarnos si construir modelos de lenguaje del tamaño del cerebro humano es el mejor enfoque a largo plazo?

Por supuesto, nuestro cerebro es un dispositivo maravilloso, producido por millones de años de evolución, mientras que los modelos de aprendizaje profundo solo tienen unas décadas de existencia. Aún así, nuestra intuición debería decirnos que algo no cuadra (juego de palabras intencionado).

Aprendizaje profundo, bolsillos profundos

Como era de esperar, entrenar un modelo con 530 mil millones de parámetros en conjuntos de datos de texto enormes requiere una infraestructura considerable. De hecho, Microsoft y NVIDIA utilizaron cientos de servidores DGX A100 con múltiples GPU. A $199,000 cada uno, y teniendo en cuenta el equipo de red, los costos de alojamiento, etc., cualquier persona que quiera replicar este experimento tendría que gastar cerca de $100 millones de dólares. ¿Quieres papas fritas con eso?

Seriamente, ¿qué organizaciones tienen casos de uso empresarial que justificarían gastar $100 millones en infraestructura de aprendizaje profundo? O incluso $10 millones. Muy pocas. Entonces, ¿para quiénes son realmente estos modelos?

Esa sensación cálida es tu grupo de GPU

A pesar de toda su brillantez en ingeniería, entrenar modelos de aprendizaje profundo en GPUs es una técnica de fuerza bruta. Según la hoja de especificaciones, cada servidor DGX puede consumir hasta 6.5 kilovatios. Por supuesto, necesitarás al menos la misma cantidad de potencia de enfriamiento en tu centro de datos (o en tu armario de servidores). A menos que seas de los Stark y necesites mantener Winterfell cálido en invierno, ese es otro problema con el que tendrás que lidiar.

Además, a medida que aumenta la conciencia pública sobre cuestiones climáticas y de responsabilidad social, las organizaciones deben tener en cuenta su huella de carbono. Según este estudio de 2019 de la Universidad de Massachusetts, “entrenar a BERT en una GPU equivale aproximadamente a un vuelo transamericano”.

BERT-Large tiene 340 millones de parámetros. Solo podemos extrapolar cuál podría ser la huella de carbono de Megatron-Turing… Las personas que me conocen no me llamarían un ambientalista extremista. Aún así, algunos números son difíciles de ignorar.

Entonces?

¿Estoy emocionado por Megatron-Turing NLG 530B y cualquier bestia que venga a continuación? No. ¿Creo que la mejora (relativamente pequeña) en los resultados vale el costo adicional, la complejidad y la huella de carbono? No. ¿Creo que construir y promover estos modelos enormes ayuda a las organizaciones a comprender y adoptar el aprendizaje automático? No.

Me pregunto cuál es el punto de todo esto. ¿Ciencia por la ciencia misma? ¿Buen marketing? ¿Supremacía tecnológica? Probablemente un poco de cada uno. Los dejaré con eso, entonces.

En cambio, permítanme enfocarme en técnicas pragmáticas y aplicables que todos ustedes pueden utilizar para construir soluciones de aprendizaje automático de alta calidad.

Utilizar modelos pre-entrenados

En la gran mayoría de los casos, no necesitarás una arquitectura de modelo personalizada. Tal vez quieras uno personalizado (que es algo diferente), pero ahí hay dragones. ¡Solo para expertos!

Un buen punto de partida es buscar modelos que hayan sido pre-entrenados para la tarea que estás tratando de resolver (digamos, resumir texto en inglés).

Luego, deberías probar rápidamente algunos modelos para predecir tus propios datos. Si las métricas te dicen que uno funciona lo suficientemente bien, ¡ya está! Si necesitas un poco más de precisión, deberías considerar ajustar el modelo (más sobre esto en un minuto).

Utilizar modelos más pequeños

Cuando evalúes modelos, debes elegir el más pequeño que pueda proporcionar la precisión que necesitas. Predecirá más rápido y requerirá menos recursos de hardware para entrenamiento e inferencia. La frugalidad tiene muchas ventajas.

No es nada nuevo tampoco. Los profesionales de Visión por Computadora recordarán cuando se lanzó SqueezeNet en 2017, logrando una reducción de 50 veces en el tamaño del modelo en comparación con AlexNet, al tiempo que cumplía o superaba su precisión. ¡Qué inteligente fue eso!

También se están llevando a cabo esfuerzos de reducción de tamaño en la comunidad de Procesamiento del Lenguaje Natural, utilizando técnicas de transferencia de aprendizaje como la destilación de conocimiento. DistilBERT es quizás su logro más conocido. En comparación con el modelo BERT original, retiene el 97% de la comprensión del lenguaje mientras que es un 40% más pequeño y un 60% más rápido. Puedes probarlo aquí. El mismo enfoque se ha aplicado a otros modelos, como el BART de Facebook, y puedes probar DistilBART aquí.

Los modelos recientes del proyecto Big Science también son muy impresionantes. Como se puede ver en este gráfico incluido en el artículo de investigación, su modelo T0 supera al GPT-3 en muchas tareas siendo 16 veces más pequeño.

Puedes probar T0 aquí. ¡Este es el tipo de investigación que necesitamos más!

Ajustar modelos

Si necesitas especializar un modelo, debería haber muy pocas razones para entrenarlo desde cero. En su lugar, deberías ajustarlo, es decir, entrenarlo solo durante algunas épocas con tus propios datos. Si tienes pocos datos, tal vez alguno de estos conjuntos de datos pueda ayudarte a comenzar.

Lo adivinaste, ¡esa es otra forma de hacer transferencia de aprendizaje y te ayudará a ahorrar en todo!

  • Menos datos para recopilar, almacenar, limpiar y anotar,
  • Experimentos e iteraciones más rápidos,
  • Menos recursos requeridos en producción.

En otras palabras: ¡ahorra tiempo, ahorra dinero, ahorra recursos de hardware, salva el mundo!

Si necesitas un tutorial, el curso de Hugging Face te pondrá en marcha en poco tiempo.

Utiliza infraestructura basada en la nube

Te gusten o no, las compañías de la nube saben cómo construir una infraestructura eficiente. Los estudios de sostenibilidad muestran que la infraestructura basada en la nube es más eficiente en energía y carbono que la alternativa: consulta AWS, Azure y Google. Earth.org dice que aunque la infraestructura en la nube no es perfecta, “[es] más eficiente en energía que la alternativa y facilita servicios beneficiosos para el medio ambiente y el crecimiento económico”.

La nube ciertamente tiene muchas ventajas en cuanto a facilidad de uso, flexibilidad y pago según uso. También es un poco más ecológica de lo que probablemente pensabas. Si tienes pocos GPUs, ¿por qué no intentas ajustar tus modelos de Hugging Face en Amazon SageMaker, el servicio administrado de AWS para Machine Learning? Tenemos muchos ejemplos para ti.

Optimiza tus modelos

Desde compiladores hasta máquinas virtuales, los ingenieros de software han utilizado durante mucho tiempo herramientas que optimizan automáticamente su código para cualquier hardware en el que se ejecute.

Sin embargo, la comunidad de Aprendizaje Automático todavía está luchando con este tema, y con razón. Optimizar modelos en cuanto a tamaño y velocidad es una tarea diabólicamente compleja, que implica técnicas como:

  • Hardware especializado que acelera el entrenamiento (Graphcore, Habana) e inferencia (Google TPU, AWS Inferentia).
  • Poda: eliminar parámetros del modelo que tienen poco o ningún impacto en el resultado predicho.
  • Fusión: combinar capas del modelo (por ejemplo, convolución y activación).
  • Cuantización: almacenar parámetros del modelo en valores más pequeños (por ejemplo, 8 bits en lugar de 32 bits).

Afortunadamente, están empezando a aparecer herramientas automatizadas, como la biblioteca de código abierto Optimum e Infinity, una solución contenerizada que ofrece precisión de Transformers con una latencia de 1 milisegundo.

Conclusión

El tamaño de los modelos de lenguaje grande ha aumentado 10 veces cada año en los últimos años. Esto comienza a parecerse a otra Ley de Moore.

Ya hemos pasado por esto antes, y deberíamos saber que este camino conduce a rendimientos decrecientes, costos más altos, mayor complejidad y nuevos riesgos. Las exponenciales tienden a no terminar bien. ¿Recuerdas Meltdown y Spectre? ¿Queremos descubrir cómo se vería eso para la IA?

En lugar de perseguir modelos de billones de parámetros (apuesta tus fichas), ¿no sería mejor construir soluciones prácticas y eficientes que todos los desarrolladores puedan usar para resolver problemas del mundo real?

¿Interesado en cómo Hugging Face puede ayudar a tu organización a construir e implementar soluciones de Aprendizaje Automático de calidad de producción? Ponte en contacto en [email protected] (sin reclutadores, sin ventas, por favor).

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Destilando lo que sabemos

Los investigadores buscan reducir el tamaño de los modelos GPT grandes.

Inteligencia Artificial

Empaqueta e implementa fácilmente modelos de ML clásicos y LLMs con Amazon SageMaker, parte 2 Experiencias interactivas para usuarios en SageMaker Studio

Amazon SageMaker es un servicio completamente administrado que permite a los desarrolladores y científicos de datos c...

Inteligencia Artificial

Científicos recrean canción de Pink Floyd leyendo las señales cerebrales de los oyentes

El audio suena como si se estuviera reproduciendo bajo el agua. Aún así, es un primer paso hacia la creación de dispo...

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

La industria de los datos de ubicación está en rápido crecimiento pero aún en su infancia técnica. La mayoría de los ...

Inteligencia Artificial

Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

Con los crecientes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento de L...

Ciencia de Datos

Investigadores crean una herramienta para simular con precisión sistemas complejos.

El sistema que desarrollaron elimina una fuente de sesgo en las simulaciones, lo que conduce a algoritmos mejorados q...