Investigadores de KAIST y Google presentaron la destilación colaborativa de puntajes (CSD) un método de inteligencia artificial que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Investigadores de KAIST y Google presentaron CSD, un método de IA que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.

Los modelos de difusión de texto a imagen se han construido utilizando miles de millones de combinaciones de imágenes y texto, y topologías eficaces, demostrando capacidades sorprendentes en la síntesis de imágenes de alta calidad, realistas y diversas con el texto proporcionado como entrada. También se han expandido a varias aplicaciones, incluyendo la traducción de imagen a imagen, la creación controlada y la personalización. Uno de los usos más recientes en esta área es la capacidad de extender más allá de las imágenes 2D a otras modalidades complejas sin cambiar los modelos de difusión mediante el uso de datos de entrenamiento específicos de la modalidad. Este estudio tiene como objetivo abordar el desafío de utilizar el conocimiento de los modelos de difusión de texto a imagen pre-entrenados para desafiar cada vez más las tareas de generación visual de alta dimensionalidad más allá de las imágenes 2D sin cambiar los modelos de difusión utilizando datos de entrenamiento específicos de la modalidad.

Comienzan con la intuición de que muchos datos visuales complejos, incluyendo películas y entornos 3D, pueden ser representados como una colección de imágenes restringidas por una consistencia específica de una cierta modalidad. Por ejemplo, una escena 3D es una colección de fotogramas multivista con consistencia de vista, mientras que una película es una colección de fotogramas con consistencia temporal. Desafortunadamente, debido a que su método de muestreo generativo no considera la consistencia al utilizar el modelo de difusión de imagen, los modelos de difusión de imagen no están equipados con la capacidad de garantizar la consistencia en un grupo de imágenes para la síntesis o edición. Como resultado, cuando se aplican modelos de difusión de imágenes a estos datos complicados sin tener en cuenta la consistencia, el resultado podría ser más coherente, como se ve en la Figura 1 (Recorte por parches), donde está claro dónde se han unido las fotos.

Figura 1: Modificación de imágenes panorámicas: En los parches recortados de la parte superior derecha, Instruct-Pix2Pix produce ediciones de imágenes erráticas. (Tercera fila) Incluso con una escala guía y alta y, Instruct-Pix2Pix con MultiDiffusion edita una imagen consistente pero con menos fidelidad a la instrucción. En la tercera fila, al elegir la escala de guía adecuada, CSD-Edit ofrece una edición de imágenes consistente con una mayor fidelidad a la instrucción.

También se han visto este tipo de comportamientos en la edición de video. Por lo tanto, investigaciones posteriores han sugerido adoptar el modelo de difusión de imágenes para abordar la consistencia temporal específica del video. Aquí, llaman la atención sobre una estrategia novedosa llamada Muestreo de Destilación de Puntuación (SDS), que utiliza la rica prioridad generativa de los modelos de difusión de texto a imagen para optimizar cualquier operador diferenciable. Al condensar las puntuaciones de densidad de difusión aprendidas, SDS enmarca el desafío del muestreo generativo como un problema de optimización. Mientras que otros investigadores demostraron la eficacia de SDS en la producción de objetos 3D a partir del texto utilizando prioridades de Campos de Radiación Neural, que asumen una geometría coherente en el espacio 3D a través de la modelización de densidad, aún no se ha investigado para la síntesis visual coherente de otras modalidades.

En este estudio, los autores de KAIST y Google Research sugieren Collaborative Score Distillation (CSD), una técnica sencilla pero eficiente que amplía el potencial del modelo de difusión de texto a imagen para la síntesis visual fiable. La clave de su enfoque es doble: en primer lugar, utilizan el descenso de gradiente variacional de Stein (SVGD) para generalizar SDS haciendo que numerosas muestras compartan información obtenida de los modelos de difusión para lograr consistencia entre muestras. En segundo lugar, proporcionan CSD-Edit, una técnica potente para la edición visual consistente que combina CSD con el modelo de difusión de imagen guiado por instrucciones recientemente desarrollado Instruct-Pix2Pix.

Utilizan una variedad de aplicaciones, incluyendo la edición de imágenes panorámicas, la edición de video y la reconstrucción de escenas 3D, para mostrar la adaptabilidad de su metodología. Demuestran cómo CSD-alter puede alterar imágenes panorámicas con consistencia espacial maximizando varios parches de imagen. Además, su método logra un equilibrio superior entre la precisión de las instrucciones y la consistencia de la imagen fuente-objetivo en comparación con enfoques anteriores. En experimentos con la edición de video, CSD-Edit logra consistencia temporal optimizando numerosos fotogramas, lo que lleva a una edición de video consistente en el tiempo. También utilizan CSD-Edit para generar y editar escenas 3D, promoviendo la uniformidad entre diferentes puntos de vista.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Skill-it un marco de habilidades impulsado por datos para comprender y entrenar modelos de lenguaje

Los modelos de lenguaje grandes (LM) son notablemente capaces de crear código fuente, crear obras de arte originales ...

Inteligencia Artificial

Conoce a Prismer Un modelo de visión-lenguaje de código abierto con un conjunto de expertos.

Varios modelos recientes de visión y lenguaje han demostrado notables habilidades de generación multimodal. Pero típi...

Inteligencia Artificial

La SEC le está dando a las empresas cuatro días para informar ciberataques

Los críticos cuestionan si las nuevas reglas podrían causar más daño que beneficio.

Inteligencia Artificial

La influencia oculta de la contaminación de datos en los grandes modelos de lenguaje

Veea los riesgos de la contaminación de datos en los Modelos de Lenguaje Extensos (LLMs). Estrategias para la detecci...

Inteligencia Artificial

Este chip centrado en la Inteligencia Artificial redefine la eficiencia duplicando el ahorro de energía al unificar el procesamiento y la memoria.

En un mundo donde la demanda de inteligencia local basada en datos está en aumento, el desafío de permitir que los di...

Inteligencia Artificial

Utilice la IA generativa para aumentar la productividad de los agentes mediante la automatización de la síntesis de llamadas.

Tu centro de contacto sirve como el vínculo vital entre tu negocio y tus clientes. Cada llamada a tu centro de contac...