Conoce DiffusionDet Un Modelo de Inteligencia Artificial (IA) Que Utiliza Difusión para la Detección de Objetos

DiffusionDet un modelo de IA que utiliza difusión para detectar objetos

La detección de objetos es una técnica poderosa para identificar objetos en imágenes y videos. Gracias al aprendizaje profundo y los avances en visión por computadora, ha recorrido un largo camino en los últimos años. Tiene el potencial de revolucionar una amplia gama de industrias, desde transporte y seguridad hasta salud y comercio minorista. A medida que la tecnología continúa mejorando, podemos esperar ver aún más desarrollos emocionantes en el campo de la detección de objetos.

Uno de los desafíos clave en la detección de objetos es la capacidad de localizar con precisión los objetos en una imagen. Esto implica identificar que un objeto está presente y determinar su ubicación y tamaño precisos.

La mayoría de los detectores de objetos utilizan una combinación de técnicas de regresión y clasificación para identificar objetos en imágenes. Esto se hace típicamente observando áreas específicas de la imagen, como ventanas deslizantes o propuestas de región, y utilizando estas como “guías” para ayudar a identificar objetos. Otros métodos, como cajas de anclaje o puntos de referencia, también pueden ayudar con la detección de objetos.

Aunque estas técnicas para la detección de objetos son relativamente sencillas y efectivas, dependen de un conjunto fijo de criterios de búsqueda predeterminados. La mayoría de las veces, es necesario definir un conjunto de objetos candidatos. Sin embargo, puede resultar engorroso definir todos estos criterios predeterminados. ¿Hay alguna manera de simplificar aún más el proceso sin necesidad de estos criterios de búsqueda predeterminados?

La respuesta de los investigadores de Tencent fue proponer el DiffusionDet, un modelo de difusión que se utiliza en la detección de objetos.

Los modelos de difusión han sido el centro de atención de la comunidad de IA en los últimos meses, principalmente gracias al lanzamiento público del modelo de difusión estable. Para explicarlo de manera sencilla, los modelos de difusión toman el ruido como entrada y lo desruido gradualmente, siguiendo ciertas reglas hasta obtener una salida deseable. En el contexto de la difusión estable, la entrada era una imagen de ruido obtenida por el texto de la sugerencia, y se desruido lentamente hasta obtener una imagen similar a la sugerencia de texto dada.

Entonces, ¿cómo se puede utilizar el enfoque de difusión para la detección de objetos? No estamos interesados en generar algo nuevo; en cambio, queremos conocer los objetos en una imagen dada. ¿Cómo lo hicieron?

Visión general de DiffusionDet. Fuente: https://arxiv.org/pdf/2211.09788.pdf

En DiffusionDet, se ha diseñado un nuevo marco para detectar objetos directamente a partir de un conjunto de cajas aleatorias. Se espera que estas cajas, que no contienen parámetros aprendibles que necesiten ser optimizados durante el entrenamiento, tengan sus posiciones y tamaños refinados gradualmente hasta que cubran con precisión los objetos objetivo a través del enfoque de ruido a caja.

Imagina las cajas como el ruido de entrada, y la restricción aquí es que deben contener un objeto. Así que, al final, queremos obtener un conjunto de cajas que contengan diferentes objetos. El paso de desruido cambia gradualmente los tamaños y posiciones de las cajas. No se requieren suposiciones heurísticas sobre los objetos ni consultas aprendibles en este enfoque, lo que simplifica la identificación de candidatos a objetos y avanza en el desarrollo del pipeline de detección.

Marco de DiffusionDet. Fuente: https://arxiv.org/pdf/2211.09788.pdf

DiffusionDet considera la detección de objetos como una tarea generativa que implica las posiciones y tamaños de las cajas delimitadoras en una imagen. Durante el entrenamiento, se agrega ruido controlado por una programación de varianza a las cajas de verdad para crear cajas ruidosas, las cuales luego se utilizan para recortar características del mapa de características de salida del codificador principal. Estas características se envían al decodificador de detección, que se entrena para predecir las cajas de verdad sin ruido. Esto permite que DiffusionDet prediga las cajas de verdad a partir de cajas aleatorias. Durante la inferencia, DiffusionDet genera cajas delimitadoras invirtiendo el proceso de difusión aprendido y ajustando una distribución previa ruidosa a la distribución aprendida sobre las cajas delimitadoras.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Top Herramientas/Startups de Datos Sintéticos para Modelos de Aprendizaje Automático en 2023

La información creada intencionalmente en lugar de ser el resultado de eventos reales se conoce como datos sintéticos...

Inteligencia Artificial

Traducción de imágenes de bocetos a imágenes Transformando bocetos abstractos en imágenes fotorrealistas con GANs

Algunas personas son habilidosas para dibujar a mano alzada, mientras que otras pueden tener talento para otras tarea...

Inteligencia Artificial

Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Muchas ramas de la biología, incluyendo ecología, biología evolutiva y biodiversidad, están recurriendo cada vez más ...

Inteligencia Artificial

Ordenando el marco de los cambios en los conjuntos de datos El ejemplo

Hablé recientemente sobre las causas de la degradación del rendimiento del modelo, es decir, cuando la calidad de sus...