Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.

Investigadores presentan Ambient Diffusion, un marco de IA para entrenar modelos de difusión con datos corruptos.

Para aprender distribuciones de alta dimensionalidad y resolver problemas inversos, los modelos de difusión generativa están emergiendo como marcos flexibles y potentes. Los modelos de base condicional de texto como Dalle-2, Latent Diffusion e Imagen han logrado un rendimiento notable en dominios de imágenes genéricas debido a varios avances recientes. Los modelos de difusión han demostrado recientemente su capacidad para memorizar muestras de su conjunto de entrenamiento. Además, un adversario con acceso de consulta simple al modelo puede obtener muestras del conjunto de datos, lo que plantea preocupaciones de privacidad, seguridad y derechos de autor.

Los investigadores presentan el primer marco basado en difusión que puede aprender una distribución desconocida a partir de muestras altamente contaminadas. Este problema surge en contextos científicos donde obtener muestras limpias es difícil o costoso. Debido a que los modelos generativos nunca están expuestos a datos de entrenamiento limpios, es menos probable que memoricen muestras de entrenamiento particulares. El concepto central es corromper aún más la imagen distorsionada original durante la difusión mediante la introducción de distorsión adicional en la medición y luego desafiar al modelo a predecir la imagen distorsionada original a partir de la otra imagen distorsionada. La investigación científica verifica que el enfoque genera modelos capaces de adquirir la expectativa condicional de la imagen sin corrupción completa a la luz de esta corrupción adicional en la medición. El relleno y la adquisición comprimida son dos métodos de corrupción que entran en esta generalización. Al entrenarlos en conjuntos de datos estándar de la industria, los científicos demuestran que sus modelos pueden aprender la distribución incluso cuando todas las muestras de entrenamiento faltan el 90% de sus píxeles. También demuestran que los modelos de base se pueden ajustar en conjuntos de datos corruptos pequeños y se puede aprender la distribución limpia sin memorizar el conjunto de entrenamiento.

Características destacadas

  • El concepto central de esta investigación es distorsionar aún más la imagen y obligar al modelo a predecir la imagen distorsionada a partir de la imagen.
  • Su enfoque entrena modelos de difusión utilizando datos de entrenamiento corruptos en conjuntos de datos populares (CelebA, CIFAR-10 y AFHQ).
  • Los investigadores proporcionan un muestreador aproximado para la distribución deseada p0(x0) basado en las expectativas condicionales aprendidas.
  • Según la investigación, se puede aprender una cantidad considerable sobre la distribución de las fotos originales, incluso si falta hasta el 90% de los píxeles. Obtienen mejores resultados que AmbientGAN y líneas de base naturales anteriores.
  • Sin ver una imagen limpia durante el entrenamiento, se demuestra que los modelos funcionan de manera similar o mejor que los modelos de difusión de vanguardia para manejar ciertos problemas inversos. Mientras que las líneas de base necesitan muchas etapas de difusión, los modelos solo necesitan un paso de predicción para realizar su tarea.
  • El enfoque se utiliza para refinar aún más los modelos de difusión preentrenados estándar en la comunidad de investigación. Es posible aprender distribuciones a partir de un pequeño número de muestras contaminadas, y el proceso de ajuste fino solo lleva unas pocas horas en una sola GPU.
  • Algunas muestras corruptas en un dominio diferente también se pueden utilizar para ajustar modelos de base como Deepfloyd’s IF.
  • Para cuantificar el efecto de aprendizaje, los investigadores comparan modelos entrenados con y sin corrupción mostrando la distribución de similitudes principales con las muestras de entrenamiento.
  • Se demuestra que los modelos entrenados en datos suficientemente distorsionados no retienen ningún conocimiento de los datos de entrenamiento originales. Evalúan el compromiso entre corrupción (que determina el nivel de memorización), datos de entrenamiento y calidad del generador aprendido.

Limitaciones

  • El nivel de corrupción es inversamente proporcional a la calidad del generador. El generador tiene menos probabilidades de aprender de la memoria cuando se aumenta el nivel de corrupción, pero a expensas de la calidad. La definición precisa de este compromiso sigue siendo un problema de investigación no resuelto. Y para estimar E[x0|xt] con los modelos entrenados, los investigadores probaron algoritmos de aproximación básicos en este trabajo.
  • Además, establecer suposiciones sobre la distribución de datos es necesario para brindar cualquier garantía estricta de privacidad con respecto a la protección de cualquier muestra de entrenamiento. El material suplementario muestra que el oráculo de restauración puede restaurar E precisamente [x0|xt], aunque los investigadores no proporcionan una técnica.
  • Este método no funcionará si las mediciones también contienen ruido. El uso de regularización SURE puede ayudar a la investigación futura a superar esta restricción.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Microsoft dice que su extraña nueva partícula podría mejorar los ordenadores cuánticos.

Los investigadores de Microsoft dicen haber creado quasipartículas elusivas llamadas modos cero de Majorana, pero los...

Inteligencia Artificial

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Estamos emocionados de anunciar que Amazon SageMaker JumpStart ahora puede transmitir respuestas de inferencia de mod...

Ciencias de la Computación

Más personas están quedando ciegas. La IA puede ayudar a combatirlo.

La detección temprana es crucial para tratar enfermedades oculares. Los análisis de escaneo ocular mejorados por AI p...