Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Meta AI presents MusicGen, a simple and controllable music generation model powered by both text and melody.

Crear composiciones musicales a partir de descripciones de texto, como “canción de rock de los años 90 con un riff de guitarra”, es texto a música. Debido a que implica simular procesos a largo plazo, hacer música es una tarea difícil. La música, a diferencia del habla, requiere el uso de todo el rango de frecuencia. Esto implica muestrear la señal con más frecuencia; por ejemplo, las grabaciones de música suelen utilizar tasas de muestreo de 44,1 kHz o 48 kHz en lugar de 16 kHz para el habla. Además, las armonías y melodías de varios instrumentos se combinan para formar estructuras complicadas en la música. Los oyentes humanos son extremadamente sensibles a la discordia. Por lo tanto, hay poco margen para errores melódicos al crear música. 

Por último, es crucial que los productores de música tengan la capacidad de controlar el proceso de generación con diversas herramientas, como teclas, instrumentos, melodía, género, etc. Los recientes avances en síntesis de audio, modelado secuencial y aprendizaje de representaciones de audio auto-supervisado hacen posible el marco para crear dichos modelos. La investigación reciente sugiere expresar las señales de audio como varias corrientes de tokens discretos que representan la misma señal para que el modelado de audio sea más manejable. Esto permite tanto el modelado de audio eficiente como la generación de audio de alta calidad. Esto, sin embargo, implica modelar conjuntamente varias corrientes paralelas dependientes. 

Los investigadores han sugerido modelar varias corrientes de tokens de habla concurrentes mediante un método de retraso o agregando desplazamientos entre las diversas corrientes. Otros sugieren modelar partes musicales mediante una jerarquía de modelos autorregresivos y mostrarlos mediante varias secuencias de tokens discretos a diversas granularidades. Paralelamente, varios investigadores utilizan una estrategia similar para generar canto con acompañamiento. Los investigadores han sugerido dividir este problema en dos etapas: (i) modelar solo la corriente inicial de tokens y (ii) utilizar una red posterior para modelar conjuntamente el resto de las corrientes de una manera no autorregresiva. Los investigadores de Meta AI presentan MUSICGEN en este estudio, un modelo sencillo y controlado de generación de música que puede producir música de alta calidad a partir de una descripción escrita. 

Como generalización de investigaciones anteriores, proporcionan un marco genérico para modelar numerosas corrientes concurrentes de tokens acústicos. También incorporan un condicionamiento de melodía no supervisado, que permite al modelo producir música que se ajusta a una estructura armónica y melódica específica para aumentar la controlabilidad de las muestras creadas. Estudiaron detenidamente MUSICGEN y demostraron que es mucho mejor que las líneas de base analizadas, dándole una calificación subjetiva de 84,8 sobre 100 en comparación con el 80,5 de la mejor línea de base. También ofrecen una investigación de ablación que aclara la importancia de cada componente en el rendimiento del modelo completo. 

Por último, la evaluación humana indica que MUSICGEN produce muestras de alta calidad que están más alineadas melódicamente con una estructura armónica específica y se adhieren a una descripción escrita. Su participación: (i) presentan una metodología sencilla y efectiva para producir música de alta calidad a 32 kHz. Demuestran cómo MUSICGEN puede crear música confiable utilizando un modelo de lenguaje de una sola etapa y una técnica de entrelazamiento de codificación exitosa. (ii) Proporcionan un modelo único para llevar a cabo tanto la generación condicionada por texto como la generación condicionada por melodía, y muestran que el audio generado es leal a la información de condicionamiento de texto y coherente con la melodía dada. (iii) Ofrecen evaluaciones detalladas de las decisiones fundamentales de diseño de su método que son tanto objetivas como subjetivas. La implementación de PyTorch del código para MusicGen está disponible en la biblioteca AudioCraft en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo ayudar a los estudiantes de secundaria a prepararse para el auge de la inteligencia artificial

Un programa de verano de una semana tiene como objetivo fomentar una comprensión más profunda de los enfoques de apre...

Inteligencia Artificial

Conoce T2I-Adapter-SDXL Modelos de Control Pequeños y Eficientes.

Los T2I-Adapters son herramientas plug-and-play que mejoran los modelos de texto a imagen sin requerir un nuevo entre...

Inteligencia Artificial

Apple presenta MLX, un marco de trabajo de aprendizaje automático de código abierto

En un importante paso hacia la promoción de la colaboración y la innovación en el campo del aprendizaje automático, A...

Inteligencia Artificial

Investigadores de la Universidad de Zurich desarrollan SwissBERT un modelo de lenguaje multilingüe para los cuatro idiomas nacionales de Suiza

El famoso modelo BERT ha sido recientemente uno de los principales modelos de lenguaje para el procesamiento del leng...

Inteligencia Artificial

Puedes conservar tu trabajo, pero no será el mismo trabajo

Aunque la IA se adueña de nuestras habilidades de codificación, no ha dominado en absoluto el lenguaje humano. Ahí es...