De Sonido a Vista Conoce AudioToken para la Síntesis de Audio a Imagen.

AudioToken de sonido a vista, síntesis de audio a imagen.

Los modelos generativos neuronales han transformado la forma en que consumimos contenido digital, revolucionando varios aspectos. Tienen la capacidad de generar imágenes de alta calidad, garantizar la coherencia en largos tramos de texto e incluso producir voz y audio. Entre los diferentes enfoques, los modelos generativos basados en difusión han ganado prominencia y han mostrado resultados prometedores en varias tareas. 

Durante el proceso de difusión, el modelo aprende a asignar una distribución de ruido predefinida a la distribución de datos objetivo. En cada paso, el modelo predice el ruido y genera la señal a partir de la distribución objetivo. Los modelos de difusión pueden operar en diferentes formas de representaciones de datos, como entrada cruda y representaciones latentes. 

Se han desarrollado modelos de última generación, como Stable Diffusion, DALLE y Midjourney, para tareas de síntesis de texto a imagen. Aunque el interés en la generación X-a-Y ha aumentado en los últimos años, los modelos de audio a imagen aún no se han explorado en profundidad. 

La razón de usar señales de audio en lugar de indicaciones de texto se debe a la interconexión entre imágenes y audio en el contexto de videos. En contraste, aunque los modelos generativos basados en texto pueden producir imágenes notables, las descripciones textuales no están inherentemente conectadas a la imagen, lo que significa que las descripciones textuales se agregan típicamente de forma manual. Las señales de audio tienen, además, la capacidad de representar escenas y objetos complejos, como diferentes variaciones del mismo instrumento (por ejemplo, guitarra clásica, guitarra acústica, guitarra eléctrica, etc.) o diferentes perspectivas del objeto idéntico (por ejemplo, guitarra clásica grabada en un estudio versus un show en vivo). La anotación manual de esta información detallada para objetos distintos es intensiva en mano de obra, lo que hace que la escalabilidad sea un desafío. 

Estudios anteriores han propuesto varios métodos para generar audio a partir de entradas de imagen, principalmente mediante una Red Generativa Antagónica (GAN) para generar imágenes basadas en grabaciones de audio. Sin embargo, hay notables diferencias entre su trabajo y el método propuesto. Algunos métodos se centraron exclusivamente en generar dígitos MNIST y no extendieron su enfoque para abarcar sonidos de audio generales. Otros generaron imágenes a partir de audio general pero resultaron en imágenes de baja calidad.

Para superar las limitaciones de estos estudios, se ha propuesto un modelo de DL para la generación de audio a imagen. Su descripción general se muestra en la figura a continuación.

Este enfoque implica aprovechar un modelo de generación de texto a imagen pre-entrenado y un modelo de representación de audio pre-entrenado para aprender una capa de adaptación que mapee entre sus salidas e entradas. Tomando como base el trabajo reciente sobre inversiones textuales, se introduce un token de audio dedicado para mapear las representaciones de audio en un vector de incrustación. Este vector se reenvía a la red como una representación continua, reflejando una nueva incrustación de palabra. 

El incorporador de audio utiliza una red de clasificación de audio pre-entrenada para capturar la representación del audio. Normalmente, se utiliza la última capa de la red discriminativa con fines de clasificación, pero a menudo se pasa por alto detalles importantes del audio que no están relacionados con la tarea discriminatoria. Para abordar esto, el enfoque combina capas anteriores con la última capa oculta, lo que resulta en una incrustación temporal de la señal de audio.

Los resultados de muestra producidos por el modelo presentado se informan a continuación.

Este fue el resumen de AudioToken, un nuevo modelo de síntesis de audio a imagen (A2I). Si está interesado, puede obtener más información sobre esta técnica en los siguientes enlaces.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El viaje de la IA hacia la IA generativa y cómo funciona

Este artículo discute los conceptos básicos de IA/ML, su uso, la evolución de la IA generativa, la ingeniería de inst...

Inteligencia Artificial

Un lugar para el clustering de K-means

El Clustering K-Means es un algoritmo de aprendizaje no supervisado que nos ayuda a agrupar puntos de datos similares...

Inteligencia Artificial

Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa

La inteligencia artificial generativa es un término con el que todos estamos familiarizados en la actualidad. Han ava...

Inteligencia Artificial

Super Carga tus Sistemas de ML en 4 Sencillos Pasos

¡Bienvenido a la montaña rusa de la optimización de ML! En esta publicación te guiaré a través de mi proceso para opt...

Inteligencia Artificial

IA generativa 2024 y más allá Un vistazo al futuro

Desde el surgimiento de Generative AI Fabric hasta la ética como el nuevo NFR, exploremos lo que la tecnología Genera...

Aprendizaje Automático

Búsqueda de similitud, Parte 1 kNN e Índice de Archivo Invertido

La búsqueda de similitud es un problema en el que, dada una consulta, el objetivo es encontrar los documentos más sim...