Investigadores del MIT introducen la técnica de Restart Sampling para mejorar los procesos generativos.

MIT researchers introduce Restart Sampling technique to improve generative processes.

Los modelos generativos profundos basados en ecuaciones diferenciales han surgido recientemente como herramientas de modelado potentes para datos de alta dimensión en campos que van desde la síntesis de imágenes hasta la biología. Estos modelos resuelven ecuaciones diferenciales iterativamente en reversa, transformando finalmente una distribución básica (como una gaussiana en modelos de difusión) en una distribución de datos complicada.

Los estudios han categorizado los muestreadores previos que pueden modelar estos procesos reversibles en dos tipos:

  1. Muestreadores ODE, cuya evolución es determinista después de la aleatorización inicial
  2. Muestreadores SDE, cuyas trayectorias de generación son estocásticas.

Varias publicaciones proporcionan evidencia de que estos muestreadores exhiben beneficios en diversos entornos. Los errores de discretización más pequeños producidos por los solucionadores ODE permiten una calidad de muestra utilizable incluso con tamaños de paso más grandes. Sin embargo, la calidad de sus descendientes se estabiliza rápidamente. Por otro lado, SDE mejora la calidad en el régimen de gran NFE, pero a costa de más tiempo de muestreo.

Inspirados en esto, los investigadores del MIT desarrollaron una nueva técnica de muestreo llamada Restart, que combina los beneficios de ODE y SDE. El algoritmo de muestreo Restart consiste en K iteraciones de dos subrutinas en una cantidad fija de tiempo: un proceso directo de Reinicio que introduce una gran cantidad de ruido, “reiniciando” efectivamente el proceso inverso original, y un proceso inverso de Reinicio que ejecuta el ODE inverso.

El algoritmo de Reinicio desacopla la aleatoriedad y las derivas, y la cantidad de ruido agregado en el proceso directo de Reinicio es mucho mayor que el pequeño ruido de un solo paso que se intercala con las derivas en SDE anteriores, lo que aumenta el efecto de contracción en los errores acumulados. El efecto de constricción introducido en cada iteración de Reinicio se refuerza mediante ciclos hacia adelante y hacia atrás K veces. Restart puede reducir los errores de discretización y lograr tamaños de paso similares a los de ODE gracias a sus procesos inversos deterministas. En realidad, el intervalo de Reinicio se coloca a menudo al final de la simulación, donde el error acumulado es mayor, para aprovechar al máximo los efectos de contracción. Además, se utilizan múltiples períodos de Reinicio para actividades más difíciles para reducir los errores tempranos.

Los resultados experimentales muestran que, en diversos NFE, conjuntos de datos y modelos pre-entrenados, Restart supera a los solucionadores ODE y SDE de vanguardia en calidad y velocidad. En particular, en CIFAR-10 con VP, Restart logra una aceleración de 10 veces en comparación con los SDE de mejor rendimiento anterior, y en ImageNet 64×64 con EDM, una aceleración de 2 veces mientras también supera a los solucionadores ODE en el régimen de pequeño NFE.

Los investigadores también aplican Restart a un modelo de difusión estable pre-entrenado en imágenes LAION 512 x 512 para traducir texto a imágenes. Restart mejora los muestreadores previos al encontrar un mejor equilibrio entre la alineación texto-imagen/calidad visual (evaluada por puntuaciones CLIP/Aesthetic) y la diversidad (medida por puntuaciones FID) con una fuerza de guía variable sin clasificador.

Para aprovechar al máximo el potencial del marco de Reinicio, el equipo planea construir un método más moral en el futuro para seleccionar automáticamente hiperparámetros apropiados para Restart basados en el análisis de errores de los modelos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

LLMs y Análisis de Datos Cómo la IA está dando sentido a los grandes datos para obtener información empresarial

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) tienen la capacidad de analizar extensos conjuntos d...

Inteligencia Artificial

Investigadores de Google presentan 𝗦𝘆𝗻𝘁𝗵𝗜𝗗 una herramienta digital para marcar con marcas de agua e identificar imágenes generadas por IA

En el panorama en constante evolución de la inteligencia artificial (IA), los modelos generativos están creando imáge...

Inteligencia Artificial

En busca de la confianza de una modelo ¿Puedes confiar en una caja negra?

Este artículo explora estrategias para evaluar la confiabilidad de las etiquetas generadas por Modelos de Lenguaje Gr...

Inteligencia Artificial

Cómo las naciones están perdiendo una carrera global para abordar los daños de la inteligencia artificial.

Alarmado por el poder de la inteligencia artificial, Europa, Estados Unidos y otros están tratando de responder, pero...

Inteligencia Artificial

Un impulso cuántico cuQuantum con PennyLane permite que las simulaciones se ejecuten en supercomputadoras

A diez millas de la costa atlántica de Long Island, Shinjae Yoo está acelerando su motor. El científico computacional...

Inteligencia Artificial

Estas herramientas podrían ayudar a proteger nuestras imágenes de la IA

Sin embargo, estas herramientas no son perfectas, ni suficientes por sí solas.