Una nueva investigación de IA de Italia presenta un modelo generativo basado en difusión capaz tanto de la síntesis musical como de la separación de fuentes

Investigación italiana presenta modelo generativo de IA para síntesis y separación musical.

Los seres humanos son capaces de procesar varias fuentes de sonido al mismo tiempo, tanto en términos de composición musical o síntesis y análisis, es decir, separación de fuentes. En otras palabras, los cerebros humanos pueden separar fuentes de sonido individuales de una mezcla y viceversa, es decir, sintetizar varias fuentes de sonido para formar una combinación coherente. Cuando se trata de expresar matemáticamente este conocimiento, los investigadores utilizan la densidad de probabilidad conjunta de las fuentes. Por ejemplo, las mezclas musicales tienen un contexto tal que la densidad de probabilidad conjunta de las fuentes no se factoriza en el producto de las fuentes individuales.

Actualmente no existe un modelo de aprendizaje profundo que pueda sintetizar muchas fuentes en una mezcla coherente y separar las fuentes individuales de una mezcla. En cuanto a las tareas de composición o generación musical, los modelos aprenden directamente la distribución de las mezclas, lo que ofrece una modelización precisa de la mezcla pero pierde todo conocimiento de las fuentes individuales. Los modelos de separación de fuentes, en cambio, aprenden un modelo único para cada distribución de fuentes y se condicionan a la mezcla en el momento de la inferencia. Así, se pierden todos los detalles cruciales sobre la interdependencia de las fuentes. Es difícil generar mezclas en cualquiera de los escenarios.

Dando un paso hacia la construcción de un modelo de aprendizaje profundo capaz de realizar tanto la separación de fuentes como la generación de música, investigadores del Laboratorio de Investigación GLADIA de la Universidad de Roma han desarrollado el Modelo de Difusión de Múltiples Fuentes (MSDM, por sus siglas en inglés). El modelo se entrena utilizando la densidad de probabilidad conjunta de las fuentes que comparten un contexto, conocida como distribución a priori. La tarea de generación se lleva a cabo mediante muestreo utilizando la distribución a priori, mientras que la tarea de separación se lleva a cabo condicionando la distribución a priori a la mezcla y luego muestreando a partir de la distribución posterior resultante. Este enfoque es un primer paso significativo hacia modelos de audio universales, ya que es un modelo único en su tipo capaz de realizar tanto tareas de generación como de separación.

Los investigadores utilizaron el conjunto de datos Slakh2100 para sus experimentos. Más de 2100 pistas componen el conjunto de datos Slakh2100, lo que lo convierte en un conjunto de datos estándar para la separación de fuentes. Slakh2100 fue elegido como el conjunto de datos del equipo principalmente porque tiene una cantidad sustancialmente mayor de datos que otros conjuntos de datos de múltiples fuentes, lo cual es crucial para establecer la calidad de un modelo generativo. La base del modelo radica en estimar la distribución conjunta de las fuentes, que es la distribución a priori. Luego, diferentes tareas se resuelven en el momento de la inferencia utilizando la distribución a priori. Además de las tareas clásicas de inferencia total, también se incluyen tareas de inferencia parcial, como la imputación de fuentes, donde se genera un subconjunto de las fuentes dadas las demás (usando una pista de piano que complementa a la batería, por ejemplo).

Los investigadores utilizaron un modelo generativo basado en difusión entrenado utilizando el emparejamiento de puntajes para aprender la distribución a priori. Esta técnica se conoce a menudo como “emparejamiento de puntajes de eliminación de ruido”. La idea clave del emparejamiento de puntajes es aproximar la función de “puntaje” de la distribución objetivo en lugar de la distribución en sí misma. Otra adición significativa realizada por los investigadores fue la introducción de un nuevo método de muestreo basado en funciones delta de Dirac para obtener resultados notables en tareas de separación de fuentes.

Para evaluar su modelo en términos de separación, generación parcial y total, los investigadores realizaron una serie de pruebas. El rendimiento del modelo en tareas de separación estuvo a la altura de otros modelos de regresión de vanguardia. Los investigadores también explicaron que la cantidad de datos contextuales actualmente accesibles limita el rendimiento de su algoritmo. El equipo ha considerado la preseparación de mezclas y su uso como conjunto de datos para abordar el problema. En resumen, el Modelo de Difusión de Múltiples Fuentes para la separación y generación total y parcial en el ámbito musical proporcionado por el Laboratorio de Investigación GLADIA es un paradigma novedoso. El grupo espera que su trabajo anime a otros académicos a realizar investigaciones más profundas en el campo de la música.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una guía completa de Distributed Data Parallel (DDP)

¡Hola a todos! Soy François, científico investigador en Meta. Bienvenidos a este nuevo tutorial parte de la serie Tut...

Inteligencia Artificial

La IA detecta emisiones de metano desde el espacio

Una nueva herramienta de aprendizaje automático utiliza datos de satélites hiperespectrales para detectar automáticam...

Inteligencia Artificial

Esta Investigación de IA presenta GAIA un referente que define el próximo hito en la competencia general de IA

“`html Investigadores de FAIR Meta, HuggingFace, AutoGPT y GenAI Meta abordan el problema de probar las capacid...

Inteligencia Artificial

El 40% de la fuerza laboral se verá afectada por la IA en 3 años

¿Qué debemos esperar en los próximos 3 años debido al auge de la inteligencia artificial generativa?

Inteligencia Artificial

IA que enseña a otras IA

Los científicos demostraron que los robots pueden ser entrenados para entrenar a otros robots compartiendo sus conoci...