Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Microsoft Research presenta phi-1, un modelo de lenguaje especializado en la codificación de Python con un tamaño más pequeño que los modelos competidores.

Desde el descubrimiento del diseño Transformer, el arte de entrenar redes neuronales artificiales masivas ha avanzado enormemente, pero la ciencia subyacente detrás de este logro todavía está en su infancia. En el mismo momento en que se lanzaron los Transformers, surgió un sentido de orden en medio de la abrumadora y desconcertante variedad de resultados, mostrando que el aumento del rendimiento es predecible al aumentar la cantidad de cómputo o el tamaño de la red, un fenómeno ahora conocido como leyes de escala. Estas reglas de escala sirvieron como guía para la posterior investigación de la escala en el aprendizaje profundo, y el descubrimiento de variaciones en estas leyes resultó en un fuerte aumento en el rendimiento. 

En este artículo, investigan cómo se podría mejorar la calidad de los datos a lo largo de un eje diferente. Los datos de mayor calidad producen mejores resultados; por ejemplo, la limpieza de datos es un paso crucial en la creación de conjuntos de datos actuales y puede resultar en conjuntos de datos relativamente más pequeños o la capacidad de ejecutar los datos a través de más iteraciones. La investigación reciente sobre TinyStories, un conjunto de datos de alta calidad creado artificialmente para enseñar inglés a redes neuronales, demostró que los beneficios de los datos de alta calidad van mucho más allá. Al alterar drásticamente las leyes de escala, una mayor calidad de los datos puede hacer posible igualar el rendimiento de los modelos a gran escala con entrenamiento/modelos mucho más simples. 

En este estudio, los autores de Microsoft Research demuestran que los datos de buena calidad pueden mejorar aún más el SOTA de los modelos de lenguaje grandes (LLMs) a la vez que reducen significativamente el tamaño del conjunto de datos y la computación de entrenamiento. El costo ambiental de los LLMs puede reducirse en gran medida mediante modelos más pequeños que requieren menos entrenamiento. Construyen funciones específicas de Python a partir de sus cadenas de documentación, utilizando LLMs entrenados para codificación. HumanEval, el estándar de evaluación sugerido en el último artículo, se ha utilizado con frecuencia para comparar el rendimiento de LLM en código. 

Demuestran el poder de los datos de alta calidad para romper las leyes de escala existentes mediante el entrenamiento de un modelo de 1,3 mil millones de parámetros, al que llaman phi-1, para aproximadamente ocho pasadas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total) seguidas de un ajuste fino en menos de 200 millones de tokens. A grandes rasgos, realizan el preentrenamiento en datos de “calidad de manual”, tanto generados sintéticamente (con GPT-3.5) como filtrados de fuentes web, y ajustan finamente en datos “tipo ejercicio de manual”. A pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores, tanto en términos de tamaño de conjunto de datos como de modelo (ver Tabla 1), logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que son uno de los mejores números autoinformados utilizando solo una generación LLM. 

Al entrenar un modelo de 1,3 mil millones de parámetros al que llaman phi-1 durante alrededor de ocho corridas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total), seguidas de un ajuste fino en menos de 200 millones de tokens, demuestran la capacidad de los datos de alta calidad para desafiar las leyes de escala establecidas. En general, realizan el preentrenamiento en datos de “calidad de manual” que fueron creados tanto de manera artificial (usando GPT-3.5) como filtrados de fuentes en línea, y ajustan finamente en datos “tipo ejercicio de manual”. Logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que es uno de los mejores números autoinformados utilizando solo una generación LLM, a pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Guía de un ingeniero de Microsoft para la innovación y el liderazgo en Inteligencia Artificial

Adéntrate en las ideas de la innovación de AI con el Ingeniero de Software Senior de Microsoft, Manas Joshi Un viaje ...

Ciencia de Datos

Implementar una solución de seguimiento de múltiples objetos en un conjunto de datos personalizado con Amazon SageMaker.

La demanda de seguimiento de múltiples objetos (MOT) en el análisis de video ha aumentado significativamente en mucha...

Inteligencia Artificial

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Con una nueva técnica, un robot puede razonar eficientemente sobre objetos en movimiento utilizando más que solo sus ...

Inteligencia Artificial

Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de...

Inteligencia Artificial

Crear resúmenes de grabaciones utilizando IA generativa con Amazon Bedrock y Amazon Transcribe

Las notas de reuniones son una parte crucial de la colaboración, pero a menudo se pierden entre las grietas. Entre li...

Inteligencia Artificial

Cómo generar audio utilizando el modelo de IA Bark de texto a voz

Introducción Bark es un modelo de texto a audio de código abierto y completamente generativo creado por Suno.ai que p...