Investigadores de UCL y Google proponen AudioSlots un modelo generativo centrado en slots para la separación de fuentes ciegas en el dominio de audio.

UCL and Google researchers propose AudioSlots, a generative model focused on slots for blind source separation in the audio domain.

El uso de redes neuronales en arquitecturas que operan en datos estructurados en conjuntos y aprenden a mapear desde entradas no estructuradas a espacios de salida estructurados en conjuntos ha recibido mucha atención recientemente. Los desarrollos recientes en identificación de objetos y descubrimiento de objetos no supervisados, especialmente en el dominio de la visión, son respaldados por sistemas centrados en slots u objetos. Estas arquitecturas centradas en objetos son adecuadas para la separación de audio debido a su sesgo inductivo inherente de equivariancia de permutación. El objetivo de distinguir fuentes de audio de señales de audio mixtas sin acceso a información privilegiada sobre las fuentes o el proceso de mezcla es el enfoque de la aplicación de los conceptos clave de estas arquitecturas en este documento.  

Figura 1: Descripción general de la arquitectura: Se crea un espectrograma después de dividir la forma de onda de entrada. Después de eso, la red neuronal codifica el espectrograma en un conjunto de incrustaciones de fuentes invariantes a la permutación (s1…n), que luego se decodifican para producir una colección de espectrogramas de fuentes distintas. Una función de pérdida de invariancia a la permutación basada en coincidencias supervisa todo el proceso utilizando los espectrogramas de fuentes de verdad fundamentales.

La separación de sonido es un problema basado en conjuntos ya que el orden de las fuentes es aleatorio. Se aprende una asignación de un espectrograma de audio mezclado a un conjunto desordenado de espectrogramas de fuentes separadas, y el desafío de la separación de sonido se plantea como un problema de modelado generativo condicional invariante a la permutación. Con el uso de su técnica, AudioSlots, el audio se divide en variables latentes distintas para cada fuente, que luego se decodifican para proporcionar espectrogramas específicos de la fuente. Se crea utilizando funciones de codificación y decodificación basadas en la arquitectura Transformer. Es equivariante a la permutación, lo que lo hace independiente del orden de las variables latentes de la fuente (también conocidas como “slots”). Entrenan AudioSlots con una pérdida basada en coincidencias para producir fuentes independientes a partir de la entrada de audio mixto para evaluar el potencial de dicha arquitectura. 

Investigadores del University College London y Google Research presentan AudioSlots, una arquitectura generativa para espectrogramas de audio centrados en slots. Proporcionan evidencia de que AudioSlots ofrece el potencial de utilizar modelos generativos estructurados para abordar el problema de la separación de fuentes de audio. Aunque hay varias desventajas en su implementación actual de AudioSlots, como la baja calidad de reconstrucción para características de alta frecuencia y la necesidad de fuentes de audio separadas como supervisión, confían en que estos problemas se pueden resolver y sugieren varias áreas potenciales para futuras investigaciones.

Muestran su metodología en acción en una tarea sencilla de separación de voz de dos altavoces de Libri2Mix. Descubren que la separación de sonido con modelos generativos centrados en slots muestra promesa pero con algunas dificultades: la versión de su modelo que se presenta tiene dificultades para generar detalles de alta frecuencia y depende de heurísticas para unir fragmentos de audio predichos de forma independiente, y aún necesita fuentes de audio de referencia de verdad para el entrenamiento. En su trabajo futuro, para el cual proporcionan posibles rutas en su estudio, son optimistas de que estas dificultades se pueden abordar. Sin embargo, sus resultados sirven principalmente como una prueba de concepto para esta idea. 

Consulta el Artículo. No olvides unirte a nuestro subreddit de ML de más de 22k+Canal de Discord, y Boletín de correo electrónico, donde compartimos las últimas noticias de investigación de IA, proyectos de IA interesantes y más. Si tienes alguna pregunta sobre el artículo anterior o si hemos omitido algo, no dudes en enviarnos un correo electrónico a [email protected]

Echa un vistazo a más de 100 herramientas de IA en AI Tools Club

El artículo Investigadores de UCL y Google proponen AudioSlots: un modelo generativo centrado en slots para la separación ciega de fuentes de audio en el dominio del audio apareció primero en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Empaqueta e implementa fácilmente modelos de ML clásicos y LLMs con Amazon SageMaker, parte 2 Experiencias interactivas para usuarios en SageMaker Studio

Amazon SageMaker es un servicio completamente administrado que permite a los desarrolladores y científicos de datos c...

Inteligencia Artificial

El aumento de los costos de los centros de datos vinculados a las demandas de la inteligencia artificial

El uso de energía asociado con la ejecución de cálculos intensivos de IA se está convirtiendo rápidamente en un facto...

Inteligencia Artificial

Las características de IA SaaS se encuentran con aplicaciones sin fosos

Varias empresas de SaaS han anunciado recientemente características de IA generativa, lo cual representa una amenaza ...

Inteligencia Artificial

Soñar primero, aprender después DECKARD es un enfoque de IA que utiliza LLMs para entrenar agentes de aprendizaje por refuerzo (RL)

El aprendizaje por refuerzo (RL) es un enfoque popular para entrenar agentes autónomos que pueden aprender a realizar...