Extracción de datos de documentos sin OCR con Transformers (2/2)

Extracción de datos sin OCR con Transformers (2/2)

Donut versus Pix2Struct en datos personalizados

Imagen del autor (con)

¿Qué tan bien entienden estos dos modelos transformadores los documentos? En esta segunda parte te mostraré cómo entrenarlos y comparar sus resultados para la tarea de extracción de índices clave.

Ajuste fino de Donut

Entonces retomemos desde la parte 1, donde explico cómo preparar los datos personalizados. Comprimí las dos carpetas del conjunto de datos y las subí a un nuevo conjunto de datos de huggingface aquí. El cuaderno de Colab que utilicé se puede encontrar aquí. Descargará el conjunto de datos, configurará el entorno, cargará el modelo Donut y lo entrenará.

Después de ajustar fino durante 75 minutos, lo detuve cuando la métrica de validación (que es la distancia de edición) alcanzó 0.116:

Imagen del autor

En el nivel de campo, obtengo estos resultados para el conjunto de validación:

Imagen del autor

Cuando observamos el Doctype, vemos que Donut siempre identifica correctamente los documentos como una patente o una hoja de datos. Por lo tanto, podemos decir que la clasificación alcanza una precisión del 100%. También hay que tener en cuenta que aunque tengamos una clase de hoja de datos, no es necesario que esta palabra exacta esté en el documento para clasificarlo como tal. No le importa a Donut, ya que se ajustó fino para reconocerlo así.

Otros campos también tienen una puntuación bastante buena, pero es difícil decir solo con este gráfico qué sucede internamente. Me gustaría ver dónde el modelo acierta y falla en casos específicos. Así que creé una rutina en mi cuaderno para generar una tabla de informe con formato HTML. Para cada documento en mi conjunto de validación, tengo una entrada de fila como esta:

Imagen del autor

En el lado izquierdo está el dato reconocido (inferido) junto con su verdad absoluta. En el lado derecho está la imagen. También utilicé códigos de color para tener una vista general rápida:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Los Modelos de Lenguaje Grande (LLMs) han utilizado con éxito el poder de los subcampos de Inteligencia Artificial (I...

Inteligencia Artificial

Textbooks son todo lo que necesitas Un enfoque revolucionario para la formación en IA

Esta es una descripción general del artículo Los libros de texto son todo lo que necesitas, resaltando el éxito del m...

Inteligencia Artificial

La Iniciativa 'Encontrando Neuronas en un Pajar' en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.

Es común pensar en las redes neuronales como “extractores de características” adaptables que aprenden ref...

Inteligencia Artificial

Robot Blando Camina al Inflarse Repetidamente

Investigadores de la Universidad de Cornell y del Instituto Tecnológico de Israel, Technion, han diseñado un robot cu...

Inteligencia Artificial

Proyecto de ley bipartidista propone un panel de expertos para abordar los riesgos y regulaciones de la inteligencia artificial.

El Representante Ted Lieu (D-CA) está liderando el esfuerzo para brindar al Congreso la experiencia necesaria para co...