La amistad con la modalidad única ha terminado, ahora la multi-modalidad es mi mejor amiga CoDi es un modelo de IA que puede lograr la generación de cualquier tipo a cualquier tipo a través de la difusión componible.

My friendship with unique modality has ended, now multi-modality is my best friend. CoDi is an AI model capable of achieving generation from any type to any type through composable diffusion.

La inteligencia artificial generativa es un término que escuchamos casi todos los días ahora. Incluso no recuerdo cuántos artículos he leído y resumido aquí sobre inteligencia artificial generativa. Son impresionantes, lo que hacen parece irreal y mágico, y se pueden usar en muchas aplicaciones. Podemos generar imágenes, videos, audio y más solo usando indicaciones de texto.

El progreso significativo hecho en los modelos de inteligencia artificial generativa en los últimos años ha permitido casos de uso que fueron considerados imposibles no hace mucho tiempo. Comenzó con modelos de texto a imagen, y una vez que se vio que producían resultados increíblemente buenos, aumentó la demanda de modelos de inteligencia artificial capaces de manejar múltiples modalidades.

Recientemente, ha habido una creciente demanda de modelos que puedan tomar cualquier combinación de entradas (por ejemplo, texto + audio) y generar diversas combinaciones de salidas modales (por ejemplo, video + audio). Se han propuesto varios modelos para abordar esto, pero estos modelos tienen limitaciones en cuanto a aplicaciones del mundo real que involucren múltiples modalidades que coexisten e interactúan. 

Aunque es posible encadenar modelos generativos específicos de modalidad en un proceso de múltiples pasos, la potencia de generación de cada paso permanece inherentemente limitada, lo que resulta en un enfoque engorroso y lento. Además, las corrientes unimodales generadas de forma independiente pueden carecer de consistencia y alineación al combinarse, lo que hace que la sincronización posterior al procesamiento sea un desafío.

Entrenar un modelo para manejar cualquier mezcla de modalidades de entrada y generar cualquier combinación de salidas de manera flexible presenta requisitos computacionales y de datos significativos. El número de posibles combinaciones de entrada y salida escala exponencialmente, mientras que los datos de entrenamiento alineados para muchos grupos de modalidades son escasos o inexistentes.

Vamos a conocer a CoDi, que se propone para abordar este desafío. CoDi es una nueva arquitectura neural que permite el procesamiento y la generación simultáneos de combinaciones arbitrarias de modalidades. 

Descripción general de CoDi. Fuente: https://arxiv.org/pdf/2305.11846.pdf

CoDi propone alinear múltiples modalidades tanto en las etapas de acondicionamiento de entrada como en la difusión de generación. Además, introduce una estrategia de “alineación de puente” para el aprendizaje contrastivo, lo que le permite modelar eficientemente el número exponencial de combinaciones de entrada y salida con un número lineal de objetivos de entrenamiento.

La innovación clave de CoDi reside en su capacidad para manejar cualquier generación de cualquier tipo aprovechando una combinación de modelos de difusión latente (LDM), mecanismos de acondicionamiento multimodal y módulos de atención cruzada. Al entrenar LDM separados para cada modalidad y proyectar las modalidades de entrada en un espacio de características compartido, CoDi puede generar cualquier modalidad o combinación de modalidades sin entrenamiento directo para tales configuraciones.

El desarrollo de CoDi requiere un diseño de modelo y entrenamiento exhaustivos en diversos recursos de datos. En primer lugar, el entrenamiento comienza con un modelo de difusión latente (LDM) para cada modalidad, como texto, imagen, video y audio. Estos modelos se pueden entrenar de forma independiente en paralelo, asegurando una calidad de generación de una sola modalidad excepcional utilizando datos de entrenamiento específicos de la modalidad. Para la generación cruzada condicional de múltiples modalidades, donde se generan imágenes usando indicaciones de audio + lenguaje, las modalidades de entrada se proyectan en un espacio de características compartido, y el LDM de salida se ocupa de la combinación de características de entrada. Este mecanismo de acondicionamiento multimodal prepara el modelo de difusión para manejar cualquier modalidad o combinación de modalidades sin entrenamiento directo para tales configuraciones.

Descripción general del modelo CoDi. Fuente: https://arxiv.org/pdf/2305.11846.pdf

En la segunda etapa de entrenamiento, CoDi maneja estrategias de generación muchos a muchos que involucran la generación simultánea de combinaciones arbitrarias de modalidades de salida. Esto se logra agregando un módulo de atención cruzada a cada difusor y un codificador de entorno para proyectar la variable latente de diferentes LDMs en un espacio latente compartido. Esta capacidad de generación sin interrupciones permite que CoDi genere cualquier grupo de modalidades sin entrenar en todas las posibles combinaciones de generación, reduciendo el número de objetivos de entrenamiento de exponencial a lineal.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Principales herramientas de Inteligencia Empresarial 2023

Las mejores soluciones de inteligencia empresarial facilitan la búsqueda de ideas en los datos y su comunicación efec...

Inteligencia Artificial

Interpretador de Código de ChatGPT Análisis Avanzado de Datos GPT-4 para Científicos de Datos

Introducción ChatGPT es un poderoso modelo de lenguaje desarrollado por OpenAI que ha revolucionado el mundo con su c...

Inteligencia Artificial

¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

La búsqueda de hacer que los robots realicen tareas físicas complejas, como navegar por entornos desafiantes, ha sido...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...