Conoce a AnomalyGPT Un nuevo enfoque de IAD basado en Modelos de Visión-Lenguaje de Gran Escala (LVLM) para detectar anomalías industriales

AnomalyGPT Un nuevo enfoque de IAD para detectar anomalías industriales basado en LVLM.

En varias tareas de Procesamiento del Lenguaje Natural (NLP), los Modelos de Lenguaje de Gran Tamaño (LLMs) como GPT-3.5 y LLaMA han mostrado un rendimiento sobresaliente. La capacidad de los LLMs para interpretar información visual ha sido ampliada recientemente por técnicas de vanguardia como MiniGPT-4, BLIP-2 y PandaGPT, alineando aspectos visuales con características de texto, lo que ha provocado un gran cambio en el campo de la inteligencia artificial general (AGI). Aunque los LVLMs han sido pre-entrenados con grandes cantidades de datos obtenidos de Internet, su conocimiento específico de dominio está solo moderadamente desarrollado y necesitan más sensibilidad a las características locales dentro de los objetos. La tarea de IAD intenta encontrar y localizar anomalías en fotografías de productos industriales.

Los modelos deben ser entrenados solo con muestras normales para identificar muestras anómalas que se aparten de las muestras normales, ya que los ejemplos del mundo real son poco comunes e impredecibles. La mayoría de los sistemas actuales de IAD solo ofrecen puntuaciones de anomalía para las muestras de prueba y solicitan definir manualmente criterios para distinguir entre instancias normales y anómalas para cada clase de objetos, lo que los hace inadecuados para entornos de producción reales. Investigadores de la Academia de Ciencias de China, la Universidad de la Academia de Ciencias de China, Objecteye Inc. y Wuhan AI Research presentan AnomalyGPT, una metodología única de IAD basada en LVLM, como se muestra en la Figura 1, ya que ni los enfoques de IAD existentes ni los LVLMs pueden manejar adecuadamente el problema de IAD. Sin necesidad de ajustes manuales de umbral, AnomalyGPT puede identificar anomalías y su ubicación.

Figura 1 muestra una comparación de nuestro AnomalyGPT con técnicas de IAD existentes y LVLMs.

Además, su enfoque puede proporcionar información de imágenes y promover la interacción interactiva, permitiendo a los usuarios plantear consultas de seguimiento según sus requisitos y respuestas. Con solo unas pocas muestras normales, AnomalyGPT también puede aprender en contexto, lo que permite una rápida adaptación a nuevos objetos. Optimizan el LVLM utilizando datos visuales-textuales anómalos sintetizados e incorporando experiencia en IAD. Sin embargo, es necesario mejorar el entrenamiento directo utilizando datos de IAD. La escasez de datos es el primero. Pre-entrenado en 160k fotos con conversaciones multi-turno asociadas, incluyendo técnicas como LLaVA y PandaGPT. Sin embargo, el tamaño de muestra pequeño de los conjuntos de datos de IAD actualmente disponibles hace que el ajuste fino directo sea vulnerable al sobreajuste y al olvido catastrófico.

Para solucionar esto, ajustan finamente el LVLM utilizando incorporaciones de promesas en lugar de ajuste fino de parámetros. Después de las entradas de imagen, se insertan más incorporaciones de promesas, agregando información adicional de IAD al LVLM. El segundo problema tiene que ver con la semántica detallada. Sugieren un decodificador basado en coincidencia de características visuales-textuales simple para obtener resultados de localización de anomalías a nivel de píxel. Las salidas del decodificador están disponibles para el LVLM y las imágenes de prueba originales a través de incorporaciones de promesas. Esto permite que el LVLM utilice tanto la imagen en bruto como las salidas del decodificador para identificar anomalías, aumentando la precisión de sus juicios. Realizan experimentos exhaustivos en las bases de datos MVTec-AD y VisA.

Alcanzan una precisión del 93.3%, un AUC a nivel de imagen del 97.4% y un AUC a nivel de píxel del 93.1% con entrenamiento no supervisado en el conjunto de datos MVTec-AD. Alcanzan una precisión del 77.4%, un AUC a nivel de imagen del 87.4% y un AUC a nivel de píxel del 96.2% cuando se transfiere un solo disparo al conjunto de datos VisA. Por otro lado, la transferencia de un solo disparo al conjunto de datos MVTec-AD después del entrenamiento no supervisado en el conjunto de datos VisA produjo una precisión del 86.1%, un AUC a nivel de imagen del 94.1% y un AUC a nivel de píxel del 95.3%.

A continuación se presenta un resumen de sus contribuciones:

• Presentan el uso innovador de LVLM para el manejo de deberes IAD. Su enfoque facilita las discusiones de múltiples rondas y detecta y localiza anomalías sin ajustar manualmente los umbrales. El decodificador basado en la coincidencia de características visuales y textuales, ligero y basado en LVLM, aborda la limitación de la capacidad de discernimiento más débil de LLM en cuanto a semántica detallada. Alivia la restricción de la capacidad limitada de LLM para generar salidas de texto. Según su conocimiento, son los primeros en aplicar LVLM con éxito en la detección de anomalías industriales.

• Para preservar las capacidades intrínsecas de LVLM y permitir conversaciones de múltiples turnos, entrenan su modelo simultáneamente con los datos utilizados durante el pre-entrenamiento de LVLM y utilizan incrustaciones de indicaciones para el ajuste fino.

• Su enfoque mantiene una fuerte transferibilidad y puede realizar aprendizaje con pocos ejemplos en contexto en nuevos conjuntos de datos, produciendo excelentes resultados.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

EU AI Act ¿Un paso prometedor o una apuesta arriesgada para el futuro de la IA?

La Ley de la UE sobre IA es la primera ley de regulación internacional sobre IA. Su objetivo es garantizar el desarro...

Inteligencia Artificial

Robot de 400 libras del NYPD recibe una prueba en la estación de metro de Times Square

El Departamento de Policía de Nueva York ha desplegado un robot de seguridad exterior 'totalmente autónomo' de casi 4...

Inteligencia Artificial

Una forma más rápida de enseñar a un robot

Una nueva técnica ayuda a un usuario no técnico a entender por qué un robot falló, y luego ajustarlo con un esfuerzo ...

Investigación

Cómo rejuvenecer usando IA Descubierto nuevo medicamento contra el envejecimiento.

En un avance, los algoritmos de IA han jugado un papel clave en la identificación de posibles fármacos que podrían co...

Aprendizaje Automático

Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.

El Modelo Segment Anything (SAM) es una propuesta más reciente en el campo. Es un concepto fundamental en la visión q...

Inteligencia Artificial

Destacar el texto mientras se está hablando utilizando Amazon Polly

Amazon Polly es un servicio que convierte texto en habla realista. Permite el desarrollo de una amplia gama de aplica...