Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

Clave maestra para separar fuentes de audio. Presentamos AudioSep para separar cualquier cosa que describas.

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de señales de audio que se centra en separar y entender fuentes de sonido individuales en entornos auditivos complejos. Un nuevo enfoque de CASA es la separación de fuentes de audio mediante consulta de lenguaje (LASS, por sus siglas en inglés), introducido en InterSpeech 2022. El propósito de LASS es separar un sonido objetivo de una mezcla de audio basándose en una consulta de lenguaje natural, lo que resulta en una interfaz natural y escalable para aplicaciones de audio digital. A pesar de lograr un excelente rendimiento de separación en fuentes como instrumentos musicales y una pequeña clase de eventos de audio, los esfuerzos recientes en LASS aún no han logrado separar conceptos de audio en entornos de dominio abierto.

Para combatir estos desafíos, los investigadores han desarrollado el modelo de separación de audio AudioSep – “separate anything audio”, un modelo base que muestra una impresionante generalización de cero disparos en tareas y capacidades de separación sólidas en la ampliación del habla, separación de eventos de audio y separación de instrumentos musicales.

AudioSep consta de dos componentes clave: un codificador de texto y un modelo de separación. Se utiliza un codificador de texto CLIP o CLAP para extraer la incrustación de texto. A continuación, se utiliza un ResUNet de 30 capas que consta de 6 bloques de codificador y seis bloques de decodificador en la separación universal de sonido. Cada bloque de codificador consta de dos capas convolucionales con tamaños de núcleo de 3 × 3. El modelo AudioSep se entrena durante 1 millón de pasos en 8 tarjetas GPU Tesla V100.

AudioSep se evalúa extensamente en sus capacidades en tareas como separación de eventos de audio, separación de instrumentos musicales y mejora del habla. Demostró un sólido rendimiento de separación y una impresionante capacidad de generalización de cero disparos utilizando subtítulos de audio o etiquetas de texto como consultas, superando sustancialmente a modelos de separación de sonido anteriores basados en audio y lenguaje.

Los investigadores utilizaron el modelo AudioSep-CLAP para visualizar espectrogramas de mezclas de audio y fuentes de audio objetivo de verdad, así como para separar fuentes utilizando consultas de texto de diversas fuentes de sonido (por ejemplo, evento de audio, voz). Se encontró que el patrón de espectrograma de la fuente separada era similar al de la fuente de verdad, lo cual fue consistente con los resultados experimentales objetivos.

Descubrieron que el uso de “subtítulos originales” como consultas de texto en lugar de “etiquetas de texto” mejoraba significativamente el rendimiento. Esto se debió al hecho de que los subtítulos anotados por humanos proporcionan descripciones más detalladas y precisas de la fuente de interés que las etiquetas de eventos de audio. A pesar de la naturaleza personalizada y la distribución variable de palabras de los subtítulos reanotados, los resultados obtenidos utilizando los “subtítulos reanotados” fueron algo más pobres que los obtenidos utilizando los “subtítulos originales”, aunque aún superaron los resultados obtenidos con la “etiqueta de texto”. Estos hallazgos demostraron la robustez y naturaleza prometedora de AudioSep en relación con los escenarios del mundo real y se ha convertido en la herramienta para separar cualquier cosa que le describamos.

El siguiente paso en el viaje de AudioSep es la separación a través de técnicas de aprendizaje no supervisado y la ampliación del trabajo actual a la separación mediante consultas de visión, separación mediante consultas de audio y tareas de separación de altavoces.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

EU AI Act ¿Un paso prometedor o una apuesta arriesgada para el futuro de la IA?

La Ley de la UE sobre IA es la primera ley de regulación internacional sobre IA. Su objetivo es garantizar el desarro...

Inteligencia Artificial

Nueva investigación de IA de KAIST presenta FLASK un marco de evaluación de granularidad fina para modelos de lenguaje basado en conjuntos de habilidades

Increíblemente, los LLM han demostrado estar en sintonía con los valores humanos, brindando respuestas útiles, honest...

Inteligencia Artificial

Samet honrado con el Premio ACM SIGSPATIAL al Impacto de por Vida

Hanan Samet fue honrado con el Premio Inaugural al Impacto de toda la Vida de ACM's Special Interest Group on Spatial...

Inteligencia Artificial

La burbuja de la IA generativa estallará pronto

Debido a la exageración insostenible, las valoraciones poco realistas, las limitaciones de la tecnología actual y los...