Los investigadores de Google AI presentan HyperDreamBooth un enfoque de IA que genera de manera eficiente pesos personalizados a partir de una sola imagen de una persona, es más pequeño y 25 veces más rápido que DreamBooth.

Investigadores de Google AI presentan HyperDreamBooth, un enfoque de IA que genera pesos personalizados eficientemente a partir de una sola imagen de una persona. Es más pequeño y 25 veces más rápido que DreamBooth.

El campo de la Inteligencia Artificial generativa está recibiendo toda la atención que se merece. Los recientes avances en la personalización de texto a imagen (T2I) han abierto posibilidades intrigantes para usos innovadores. El concepto de personalización, que consiste en la generación de personas distintivas en contextos y estilos variados, preservando un alto nivel de integridad en sus identidades, se ha convertido en un tema destacado en la IA generativa. La personalización facial, la capacidad de generar fotos nuevas de una cara o persona de diferentes estilos, ha sido posible utilizando modelos de difusión pre-entrenados, que tienen fuertes prioridades en varios estilos.

Enfoques actuales como DreamBooth y técnicas comparables tienen éxito debido a su capacidad de incluir nuevos sujetos en el modelo sin restar conocimiento del pasado y mantener la esencia y los detalles específicos del sujeto incluso cuando se presentan de formas muy diferentes. Pero aún tiene muchas limitaciones, incluyendo problemas con el tamaño del modelo y la velocidad de entrenamiento. DreamBooth implica ajustar todos los pesos de UNet y Text Encoder del modelo de difusión, lo que lleva a un tamaño de más de 1GB para una difusión estable, que es significativamente grande. Además, el procedimiento de entrenamiento para Stable Diffusion toma alrededor de 5 minutos, lo que puede evitar su adopción generalizada y aplicación práctica.

Para superar todos estos problemas, un equipo de investigadores de Google Research ha presentado HyperDreamBooth, que es una hiperred que genera de manera eficiente un pequeño conjunto de pesos personalizados a partir de una sola imagen de una persona. Con solo una imagen de una persona, la hiperred de HyperDreamBooth crea de manera efectiva una pequeña colección de pesos personalizados. El modelo de difusión se combina luego con estos pesos únicos, que se ajustan rápidamente. El resultado final es un sistema potente que puede generar el rostro de una persona en una variedad de situaciones y estéticas, manteniendo los detalles temáticos finos y la comprensión esencial del modelo de difusión de varias estéticas y alteraciones semánticas.

La velocidad increíble de HyperDreamBooth es uno de sus mayores logros. Es 25 veces más rápido que DreamBooth y sorprendentemente 125 veces más rápido que otra tecnología relacionada llamada Inversión Textual para personalizar caras en solo 20 segundos. Además, al mantener el mismo grado de calidad y variación estética que DreamBooth, este procedimiento de personalización rápida solo necesita una imagen de referencia. HyperDreamBooth también destaca en cuanto al tamaño del modelo, además de la velocidad. El modelo personalizado resultante es 10,000 veces más pequeño que un modelo DreamBooth regular, lo cual es una ventaja sustancial, ya que hace que el modelo sea más manejable y reduce significativamente los requisitos de almacenamiento.

El equipo ha resumido sus contribuciones de la siguiente manera:

  1. Lightweight DreamBooth (LiDB): Se ha introducido un modelo personalizado de texto a imagen con una parte personalizada de aproximadamente 100KB, que se ha logrado entrenando el modelo DreamBooth en un espacio de pesos de baja dimensión generado por una base incompleta ortogonal aleatoria dentro de un espacio de pesos de adaptación de baja clasificación.
  1. Nueva arquitectura de HyperNetwork: Utilizando la configuración de LiDB, HyperNetwork genera pesos personalizados para sujetos específicos en un modelo de difusión de texto a imagen. Esto proporciona una inicialización direccional sólida, que permite un ajuste fino rápido para lograr una alta fidelidad del sujeto en pocas iteraciones. Este método es 25 veces más rápido que DreamBooth con un rendimiento comparable.
  1. Ajuste fino relajado de clasificación: Se ha propuesto la técnica de ajuste fino relajado de clasificación, relajando la clasificación de un modelo LoRA DreamBooth durante la optimización para mejorar la fidelidad del sujeto. Esto permite la inicialización del modelo personalizado con una aproximación inicial de HyperNetwork y luego refinar los detalles del sujeto de alto nivel mediante un ajuste fino relajado de clasificación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

OpenAI desvela GPT-4 Turbo Un avance personalizable hacia el futuro de la inteligencia artificial

En una industria donde la innovación es tanto rápida como revolucionaria, OpenAI ha vuelto a empujar los límites de l...

Inteligencia Artificial

Apoyando la sostenibilidad, la salud digital y el futuro del trabajo

La Iniciativa de Convergencia MIT y Accenture para la Industria y la Tecnología selecciona tres nuevos proyectos de i...

Inteligencia Artificial

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Los modelos de texto a imagen (T2I) son difíciles de evaluar y a menudo dependen de métodos de generación y respuesta...

Inteligencia Artificial

La colaboración multi-AI ayuda al razonamiento y la precisión factual en modelos de lenguaje grandes.

Los investigadores utilizan múltiples modelos de IA para colaborar, debatir y mejorar sus habilidades de razonamiento...