ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo de generación musical de principio a fin, entrenado para escuchar el contexto musical y responder de manera apropiada

ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo que genera música de principio a fin, capaz de escuchar el contexto musical y dar respuestas apropiadas

La generación de música usando el aprendizaje profundo implica entrenar modelos para crear composiciones musicales, imitando los patrones y estructuras encontrados en la música existente. Se utilizan técnicas de aprendizaje profundo comúnmente, como redes RNN, redes LSTM y modelos de transformadores. Esta investigación explora un enfoque innovador para generar audio musical utilizando modelos basados en transformadores no autorregresivos que responden al contexto musical. Este nuevo paradigma enfatiza escuchar y responder, a diferencia de los modelos existentes que se basan en una condición abstracta. El estudio incorpora los avances recientes en el campo y discute las mejoras realizadas en la arquitectura.

Investigadores de SAMI, ByteDance Inc., presentan un modelo basado en transformadores no autorregresivos que escucha y responde al contexto musical, aprovechando un punto de control de Encodec disponible públicamente para el modelo MusicGen. La evaluación utiliza métricas estándar y un enfoque de descripción de recuperación de información musical, que incluye la Distancia de Audio de Frechet (FAD) y la Distancia del Descriptor de Recuperación de Información Musical (MIRDD). El modelo resultante demuestra una calidad de audio competitiva y una alineación musical robusta con el contexto, validado a través de métricas objetivas y pruebas subjetivas de MOS.

La investigación destaca los avances recientes en la generación de audio musical de extremo a extremo a través del aprendizaje profundo, aprovechando técnicas de procesamiento de imágenes y lenguaje. Se enfatiza el desafío de alinear los elementos en la composición musical y se critican los modelos existentes que se basan en una condición abstracta. Se propone un paradigma de entrenamiento que utiliza una arquitectura basada en transformadores no autorregresiva para modelos que responden al contexto musical. Se presentan dos fuentes de condicionamiento y se plantea el problema como una generación condicional. Métricas objetivas, descriptores de recuperación de información musical y pruebas de escucha son necesarios para la evaluación del modelo.

El método utiliza un modelo basado en transformadores no autorregresivo para la generación de música, incorporando un vector cuantizador residual en un modelo separado de codificación de audio. Combina múltiples canales de audio en un solo elemento de secuencia a través de uniones concatenadas. El entrenamiento utiliza un procedimiento de enmascaramiento, y se utiliza un guía sin clasificador durante el muestreo de tokens para una mayor alineación del contexto de audio. Las métricas objetivas evalúan el rendimiento del modelo, incluyendo la Distancia de Audio de Fréchet y la Distancia del Descriptor de Recuperación de Información Musical. La evaluación implica generar y comparar salidas de ejemplo con pistas reales utilizando diversas métricas.

El estudio evalúa los modelos generados utilizando métricas estándar y un enfoque de descripción de recuperación de información musical, incluyendo FAD y MIRDD. La comparación con pistas reales indica que los modelos logran una calidad de audio comparable a los modelos condicionados por texto de última generación y demuestran una fuerte coherencia musical con el contexto. Una prueba de Puntuación de Opinión Media que involucra a participantes con formación musical valida aún más la capacidad del modelo para producir resultados musicales plausibles. MIRDD, que evalúa la alineación de distribución de pistas generadas y reales, proporciona una medida de coherencia musical y alineación.

En conclusión, la investigación realizada se puede resumir en los siguientes puntos:

  • La investigación propone un nuevo enfoque de entrenamiento para modelos generativos que pueden responder al contexto musical.
  • El enfoque introduce un modelo de lenguaje no autorregresivo con un esqueleto de transformador y dos mejoras no probadas: guía sin clasificador de múltiples fuentes y sesgo causal durante la decodificación iterativa.
  • Los modelos logran una calidad de audio de última generación mediante el entrenamiento en conjuntos de datos de código abierto y propietarios.
  • Se ha validado la calidad de audio de última generación utilizando métricas estándar y un enfoque de descripción de recuperación de información musical.
  • Una prueba de Puntuación de Opinión Media confirma la capacidad del modelo para generar resultados musicales realistas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

Los modelos de lenguaje grandes han surgido recientemente como herramientas poderosas para diversas tareas de compren...

Inteligencia Artificial

Una forma más rápida de enseñar a un robot

Una nueva técnica ayuda a un usuario no técnico a entender por qué un robot falló, y luego ajustarlo con un esfuerzo ...

Noticias de Inteligencia Artificial

BIOTRONIK presenta implantes de monitores cardíacos con inteligencia artificial.

BIOTRONIK, un líder reconocido en tecnología de dispositivos médicos implantables, ha implementado con éxito su revol...

Inteligencia Artificial

El nuevo modelo de IA de Phind supera a GPT-4 en codificación, con una velocidad similar a la de GPT-3.5 y un contexto de 16k.

En la codificación y resolución de problemas técnicos, un desafío ha sido el equilibrio entre la velocidad y la preci...

Inteligencia Artificial

Revolucionando la segmentación de objetos en videos Descubriendo a Cutie con técnicas avanzadas de lectura de memoria a nivel de objetos

El seguimiento y segmentación de objetos de un vocabulario abierto definido en una anotación de primer fotograma es n...