¿Cómo deberíamos almacenar imágenes de IA? Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación

Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación.

Hace un año, generar imágenes realistas con IA era un sueño. Nos impresionaba ver caras generadas que se parecían a las reales, a pesar de que la mayoría de las salidas tenían tres ojos, dos narices, etc. Sin embargo, las cosas cambiaron rápidamente con el lanzamiento de los modelos de difusión. Hoy en día, es difícil distinguir una imagen generada por IA de una real.

La capacidad de generar imágenes de alta calidad es una parte de la ecuación. Si quisiéramos utilizarlas adecuadamente, comprimirlas de manera eficiente juega un papel esencial en tareas como la generación de contenido, almacenamiento de datos, transmisión y optimización del ancho de banda. Sin embargo, la compresión de imágenes ha dependido predominantemente de métodos tradicionales como la codificación de transformadas y las técnicas de cuantización, con una exploración limitada de modelos generativos.

A pesar de su éxito en la generación de imágenes, los modelos de difusión y los modelos generativos basados en puntuación aún no han surgido como los enfoques principales para la compresión de imágenes, quedando rezagados detrás de los métodos basados en GAN. A menudo tienen peor rendimiento o están a la par con los enfoques basados en GAN como HiFiC en imágenes de alta resolución. Incluso los intentos de adaptar modelos de texto a imagen para la compresión de imágenes han dado resultados insatisfactorios, produciendo reconstrucciones que se desvían de la entrada original o contienen artefactos indeseables.

La brecha entre el rendimiento de los modelos generativos basados en puntuación en tareas de generación de imágenes y su éxito limitado en la compresión de imágenes plantea preguntas intrigantes y motiva una investigación más profunda. Es sorprendente que los modelos capaces de generar imágenes de alta calidad no hayan logrado superar a las GAN en la tarea específica de compresión de imágenes. Esta discrepancia sugiere que puede haber desafíos y consideraciones únicas al aplicar modelos generativos basados en puntuación a tareas de compresión, lo que requiere enfoques especializados para aprovechar todo su potencial.

Entonces sabemos que existe un potencial para utilizar modelos generativos basados en puntuación en la compresión de imágenes. La pregunta es, ¿cómo se puede hacer? Vamos a ver la respuesta.

Investigadores de Google propusieron un método que combina un autoencoder estándar, optimizado para el error cuadrático medio (MSE), con un proceso de difusión para recuperar y añadir detalles finos descartados por el autoencoder. La tasa de bits para codificar una imagen está determinada únicamente por el autoencoder, ya que el proceso de difusión no requiere bits adicionales. Al ajustar los modelos de difusión específicamente para la compresión de imágenes, se demuestra que pueden superar a varios enfoques generativos recientes en términos de calidad de imagen.

El método propuesto puede preservar detalles mucho mejor en comparación con los enfoques más avanzados. Fuente: https://arxiv.org/pdf/2305.18231.pdf

El método explora dos enfoques estrechamente relacionados: los modelos de difusión, que muestran un rendimiento impresionante pero requieren un gran número de pasos de muestreo, y los flujos rectificados, que funcionan mejor cuando se permiten menos pasos de muestreo.

El enfoque de dos pasos consiste en codificar primero la imagen de entrada utilizando el autoencoder optimizado para el MSE y luego aplicar el proceso de difusión o los flujos rectificados para mejorar la realidad de la reconstrucción. El modelo de difusión utiliza un programa de ruido que se desplaza en la dirección opuesta en comparación con los modelos de texto a imagen, priorizando los detalles sobre la estructura global. Por otro lado, el modelo de flujo rectificado aprovecha el emparejamiento proporcionado por el autoencoder para mapear directamente las salidas del autoencoder a imágenes sin comprimir.

Descripción general del modelo HFD propuesto. Fuente: https://arxiv.org/pdf/2305.18231.pdf

Además, el estudio reveló detalles específicos que pueden ser útiles para futuras investigaciones en este campo. Por ejemplo, se muestra que el programa de ruido y la cantidad de ruido inyectado durante la generación de imágenes tienen un impacto significativo en los resultados. Curiosamente, mientras que los modelos de texto a imagen se benefician de niveles más altos de ruido al entrenar con imágenes de alta resolución, se encontró que reducir el ruido general del proceso de difusión es ventajoso para la compresión. Este ajuste permite que el modelo se enfoque más en los detalles finos, ya que los detalles gruesos ya son capturados adecuadamente por la reconstrucción del autoencoder.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Amazon presentan Fortuna una biblioteca de IA para la cuantificación de la incertidumbre en el aprendizaje profundo

Los recientes avances en los campos de Inteligencia Artificial y Aprendizaje Automático han hecho la vida más fácil p...

Inteligencia Artificial

IA generativa y agentes multimodales en AWS La clave para desbloquear nuevo valor en los mercados financieros

Los datos multimodales son un componente valioso de la industria financiera, que abarca datos de mercado, económicos,...

Inteligencia Artificial

Los robots reciben una mejora 'gripante' ¡AO-Grasp enseña a los bots el arte de no dejar caer tus cosas!

En los últimos años, los robots han encontrado un mayor uso en diversas industrias, desde la fabricación hasta la ate...

Inteligencia Artificial

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), debido a su gran capacidad de generalización ...

Inteligencia Artificial

Deci AI presenta DeciDiffusion 1.0 un modelo de difusión latente de texto a imagen de 820 millones de parámetros y 3 veces más rápido que la difusión estable.

Definir el problema La generación de imágenes a partir de texto ha sido durante mucho tiempo un desafío en inteligenc...

Inteligencia Artificial

Bots, granjas fraudulentas responsables del 73% del tráfico web

Arkose Labs informó que los ataques maliciosos realizados por bots y granjas de fraudes humanos representaron el 73% ...