Conoce AudioLDM 2 Un marco de trabajo de IA único para la generación de audio que combina habla, música y efectos de sonido

AudioLDM 2 Un marco de IA único para generar audio con habla, música y efectos de sonido.

En un mundo cada vez más dependiente de los conceptos de Inteligencia Artificial y Aprendizaje Profundo, el ámbito de la generación de audio está experimentando una transformación revolucionaria con la introducción de AudioLDM 2. Este innovador marco ha allanado el camino para un método integrado de síntesis de audio, revolucionando la forma en que producimos y percibimos el sonido en una variedad de contextos, incluyendo el habla, la música y los efectos de sonido. La generación de información de audio dependiendo de variables particulares, como texto, fonemas o imágenes, se conoce como generación de audio. Esto incluye varios subdominios, incluyendo voz, música, efectos de sonido e incluso sonidos particulares como el violín o los pasos.

Cada subdominio tiene sus propios desafíos, y los trabajos anteriores a menudo han utilizado modelos especializados adaptados a esos desafíos. Los sesgos inductivos, que son limitaciones predeterminadas que dirigen el proceso de aprendizaje hacia la solución de un problema en particular, son sesgos específicos de la tarea en estos modelos. Estas limitaciones impiden el uso de la generación de audio en situaciones complicadas donde muchas formas de sonidos coexisten, como las secuencias de películas, a pesar de los grandes avances en modelos especializados. Se requiere una estrategia unificada que pueda proporcionar una variedad de señales de audio.

Para abordar estos problemas, un equipo de investigadores ha introducido AudioLDM 2, un marco único con condiciones ajustables que intenta generar cualquier tipo de audio sin depender de sesgos específicos del dominio. El equipo ha introducido el “lenguaje del audio” (LOA), que es una secuencia de vectores que representan la información semántica de un clip de audio. Este LOA permite la conversión de información que los humanos comprenden en un formato adecuado para producir audio dependiente de LOA, capturando así tanto características auditivas detalladas como información semántica de grano grueso.

El equipo ha sugerido construir sobre un Autoencoder de Máscara de Audio (AudioMAE) que ha sido pre-entrenado en una variedad de fuentes de audio para hacer esto. El marco de pre-entrenamiento produce la representación de audio óptima para tareas generativas, que incluye actividades reconstructivas y generativas. Luego, la información de condicionamiento como texto, audio y gráficos se convierte en la característica de AudioMAE utilizando un modelo de lenguaje basado en GPT. Dependiendo de la característica de AudioMAE, se sintetiza audio utilizando un modelo de difusión latente, y este modelo es susceptible de optimización auto-supervisada, lo que permite el pre-entrenamiento en datos de audio no etiquetados. Mientras se abordan las dificultades con los costos de computación y la acumulación de errores presentes en modelos de audio anteriores, la técnica de modelado del lenguaje aprovecha los desarrollos recientes en modelos de lenguaje.

En la evaluación, los experimentos han demostrado que AudioLDM 2 funciona en la vanguardia en tareas que requieren producción de texto a audio y texto a música. Supera a modelos de referencia potentes en tareas que requieren texto a habla, y para actividades como producir imágenes a sonidos, el marco puede incluir adicionalmente criterios para la modalidad visual. También se investigan características adicionales de aprendizaje en contexto para audio, música y voz. En comparación, AudioLDM 2 supera a AudioLDM en términos de calidad, adaptabilidad y producción de habla comprensible.

Las contribuciones clave han sido resumidas por el equipo de la siguiente manera.

  1. Se ha introducido un modelo innovador y adaptable de generación de audio, capaz de generar audio, música y habla comprensible con condiciones.
  1. El enfoque se ha construido sobre una representación universal de audio, permitiendo un extenso pre-entrenamiento auto-supervisado del modelo de difusión latente central sin necesidad de datos de audio anotados. Esta integración combina las fortalezas de los modelos auto-regresivos y de difusión latente.
  1. A través de experimentos, AudioLDM 2 se ha validado al alcanzar un rendimiento de vanguardia en la generación de texto a audio y texto a música. Ha logrado resultados competitivos en la generación de texto a habla comparables a los métodos actuales de vanguardia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aumente la productividad del agente con la integración de Salesforce para el análisis de llamadas en vivo.

Como agente de un centro de contacto, ¿preferirías enfocarte en tener conversaciones productivas con los clientes o d...

Inteligencia Artificial

Los creativos están luchando contra la inteligencia artificial con demandas legales

¿La acción legal obligará a las empresas de IA a cambiar la forma en que entrenan sus programas?

Inteligencia Artificial

Conoce T2I-Adapter-SDXL Modelos de Control Pequeños y Eficientes.

Los T2I-Adapters son herramientas plug-and-play que mejoran los modelos de texto a imagen sin requerir un nuevo entre...

Ciencia de Datos

¿Qué es los datos sintéticos?

Los datos sintéticos son, para decirlo sin rodeos, datos falsos. Es decir, datos que no son realmente de la población...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #75

Esta semana fue testigo de la conclusión del drama en OpenAI con el regreso de Sam Altman y Greg Brockman a OpenAI y ...