Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos

Google AI presenta VRDU, un conjunto de datos para el seguimiento del progreso en la comprensión de documentos

Cada vez se crean y almacenan más documentos por parte de las empresas en la era digital de hoy en día. Aunque estos documentos pueden incluir información útil, a veces son difíciles de leer y comprender. Las facturas, formularios y contratos que también son visualmente complejos presentan una dificultad aún mayor. Los diseños, tablas y gráficos de tales publicaciones pueden hacer que sea difícil extraer la información útil.

Para cerrar esta brecha de conocimiento y mejorar el seguimiento del progreso en las tareas de comprensión de documentos, los investigadores de Google han anunciado la disponibilidad del nuevo conjunto de datos de Comprensión de Documentos Visualmente Ricos (VRDU, por sus siglas en inglés). Basados en los tipos de documentos del mundo real que suelen procesar los modelos de comprensión de documentos, presentan cinco criterios para un benchmark efectivo. El documento detalla cómo la mayoría de los conjuntos de datos más utilizados en la comunidad de investigación tienen deficiencias en al menos una de estas áreas, mientras que VRDU destaca en todas ellas. Los investigadores de Google se complacen en compartir que el conjunto de datos VRDU y el código de evaluación están ahora disponibles para el público bajo una licencia Creative Commons.

El objetivo de la rama de investigación, Comprensión de Documentos Visualmente Ricos (VRDU), es encontrar formas de entender automáticamente este tipo de materiales. Se pueden extraer información estructurada como nombres, direcciones, fechas y sumas de documentos utilizando modelos de VRDU. El procesamiento de facturas, la gestión de relaciones con los clientes y la detección de fraudes son solo algunos ejemplos de cómo las empresas podrían utilizar esta información.

VRDU se enfrenta a muchos obstáculos. La amplia gama de tipos de documentos representa un obstáculo. Debido a sus patrones y disposiciones intrincados, los documentos visualmente ricos presentan una dificultad adicional. Los modelos de VRDU deben ser capaces de lidiar con entradas imperfectas como errores tipográficos y lagunas en los datos.

A pesar de los obstáculos, VRDU es un campo prometedor y en rápido desarrollo. Los modelos de VRDU pueden ayudar a las empresas a reducir costos y aumentar la eficiencia al mejorar la precisión de sus operaciones.

En los últimos años, se han desarrollado sistemas automatizados sofisticados para procesar y convertir documentos comerciales complicados en objetos estructurados. La entrada manual de datos consume mucho tiempo; un sistema que pueda extraer automáticamente datos de documentos como recibos, cotizaciones de seguros y estados financieros podría aumentar drásticamente la eficiencia corporativa al eliminar este paso. Los modelos más recientes construidos sobre el marco Transformer han mostrado mejoras significativas en precisión. Estos procesos comerciales también se están optimizando con la ayuda de modelos más grandes como PaLM 2. Sin embargo, las dificultades observadas en casos de uso del mundo real no se reflejan en los conjuntos de datos utilizados en publicaciones académicas. Esto significa que aunque los modelos funcionan bien según los criterios académicos, tienen un rendimiento inferior en contextos del mundo real más complejos.

Estándares de medición

En primer lugar, los investigadores compararon benchmarks académicos (por ejemplo, FUNSD, CORD, SROIE) con la precisión de los modelos de vanguardia (por ejemplo, con FormNet y LayoutLMv2) en casos de uso del mundo real. Los investigadores encontraron que los modelos de vanguardia proporcionaban significativamente menos precisión en la práctica que los utilizados como benchmarks académicos. Luego, compararon conjuntos de datos comunes con modelos de comprensión de documentos con benchmarks académicos y desarrollaron cinco condiciones para que un conjunto de datos refleje adecuadamente la complejidad de las aplicaciones del mundo real.

En su investigación, los científicos se encuentran con diversos esquemas ricos utilizados para la extracción estructurada. La información numérica, de texto, de fecha y de hora son solo algunos de los muchos tipos de datos de entidades que pueden ser necesarios, opcionales, repetidos o incluso anidados. Los problemas típicos en la práctica deben reflejarse en las operaciones de extracción realizadas sobre esquemas planos simples (encabezado, pregunta, respuesta).

Los documentos deben tener muchos tipos diferentes de elementos de diseño complejos. Surgen problemas cuando los documentos incorporan tablas, pares clave-valor, diseños de una columna y dos columnas, tamaños de fuente variables para diversas secciones, imágenes con leyendas y notas al pie. En contraste, la investigación clásica de procesamiento de lenguaje natural en entradas largas a menudo se centra en conjuntos de datos donde la mayoría de los documentos están organizados en oraciones, párrafos y capítulos con encabezados de sección.

Se deben incluir plantillas con estructuras variables en cualquier benchmark útil. Los modelos de alta capacidad pueden memorizar rápidamente la estructura de una plantilla determinada, lo que facilita la extracción de la misma. La división de entrenamiento y prueba de un benchmark debe evaluar esta capacidad de generalizar a nuevas plantillas/diseños, ya que es esencial en la práctica.

Los resultados del Reconocimiento Óptico de Caracteres (OCR) deben ser de alta calidad para todos los documentos presentados. Este benchmark tiene como objetivo eliminar los efectos de los diferentes motores de OCR en el rendimiento de VRDU.

La anotación a nivel de token: Los documentos deben incluir anotaciones de verdad básica que se pueden mapear de vuelta al texto de entrada correspondiente, lo que permite anotar tokens individuales como parte de sus respectivas entidades. Esto contrasta con la práctica estándar de pasar el texto del valor de la entidad para ser analizado. Esto es esencial para producir datos de entrenamiento impecables, libres de coincidencias accidentales con el valor suministrado, para que los investigadores puedan centrarse en otros aspectos de su trabajo. Si el monto del impuesto es cero, el campo ‘total antes de impuestos’ en un recibo puede tener el mismo valor que el campo ‘total’. Al anotar a nivel de token, se pueden evitar datos de entrenamiento en los que ambas ocurrencias del valor coincidente se designen como verdad básica para el campo ‘total’, lo que lleva a ejemplos ruidosos.

Conjuntos de datos y tareas en VRDU

La colección VRDU comprende dos conjuntos de datos públicos separados: los conjuntos de datos de Formularios de Registro y Formularios de Compra de Anuncios. Estos conjuntos de datos ofrecen instancias que se aplican a escenarios del mundo real y cumplen con los cinco criterios mencionados anteriormente.

Hay 641 archivos en la colección de Formularios de Compra de Anuncios que describen aspectos de anuncios políticos. Una estación de televisión y un grupo de defensa han firmado una factura o un recibo. Nombres de productos, fechas de emisión, costos totales y horarios de lanzamiento son solo algunos detalles registrados en las tablas, columnas múltiples y pares clave-valor de los documentos.

Hay 1,915 archivos en la colección de Formularios de Registro que detallan el trasfondo y las actividades de agentes extranjeros que se registraron en el gobierno de los Estados Unidos. En cada documento se registran detalles importantes sobre los agentes extranjeros que realizan actividades que deben hacerse públicas. Nombre del registrante, dirección de la agencia vinculada, actividades registradas y otra información.

Desarrollos recientes en VRDU

Ha habido muchos desarrollos en VRDU en los últimos años. Los modelos lingüísticos a gran escala (LLMs) son una de esas innovaciones. Las medidas de similitud representacional a gran escala (LLMs) se entrenan en grandes conjuntos de datos de texto y código y se pueden utilizar para representar el texto y el diseño de textos ricos en gráficos.

La creación de “técnicas de aprendizaje de pocos ejemplos” es otro logro significativo. Con enfoques de aprendizaje de pocos ejemplos, los modelos de VRDU pueden aprender rápidamente a extraer información de tipos de documentos novedosos. Esto es importante porque amplía los tipos de textos a los que se pueden aplicar los modelos de VRDU.

Google Research ha puesto a disposición de la comunidad de investigación el benchmark de VRDU. Las facturas y los formularios son dos ejemplos de documentos visualmente ricos incluidos en el estándar de VRDU. Hay 10,000 facturas en el conjunto de datos de facturas y 10,000 formularios en el conjunto de datos de formularios. El benchmark de VRDU también cuenta con un conjunto de herramientas bien pensadas para evaluar el rendimiento.

Los investigadores en el campo de VRDU encontrarán el benchmark una herramienta invaluable. Ahora los investigadores pueden evaluar qué tan bien funcionan varios modelos de VRDU en el mismo corpus de texto. El benchmark de VRDU es útil no solo para detectar problemas, sino también para ayudar en futuros estudios directos en el área.

  • Los modelos de VRDU pueden extraer datos estructurados de documentos.
  • Nombres, direcciones, fechas, cantidades, productos, servicios, condiciones y requisitos.
  • Se pueden automatizar varios procedimientos comerciales útiles con el uso de modelos de VRDU, incluyendo:
  • Manejo de facturas, marketing y gestión de clientes existentes, detección de fraude y cumplimiento normativo, informes a las autoridades.
  • Al reducir la cantidad de información ingresada manualmente en los sistemas, los modelos de VRDU pueden mejorar la precisión de las operaciones de la empresa.
  • Al automatizar el flujo de trabajo de procesamiento de documentos, los modelos de VRDU pueden ayudar a las empresas a ahorrar tiempo y dinero.
  • Las organizaciones pueden utilizar modelos de VRDU para mejorar la satisfacción del cliente al agilizar y perfeccionar su servicio.

El futuro de VRDU

Las perspectivas para VRDU son optimistas. El desarrollo de LLMs y métodos de aprendizaje de pocos ejemplos conducirá a modelos de VRDU más robustos y flexibles en el futuro. Debido a esto, los modelos de VRDU se pueden utilizar para automatizar más procesos comerciales y con más tipos de documentos.

Cuando se utiliza para el procesamiento y comprensión de documentos en el mundo corporativo, VRDU podría tener un impacto profundo. La comprensión de documentos de realidad virtual (VRDU) puede ahorrar tiempo y dinero a las empresas al automatizar el proceso de comprensión de documentos, y también puede ayudar a aumentar la precisión de las operaciones comerciales.

Los experimentos presentados por investigadores de Google demuestran aún más la dificultad de las tareas de VRDU y la oportunidad significativa de mejora en los modelos contemporáneos en comparación con los conjuntos de datos generalmente utilizados en la literatura, donde las puntuaciones F1 de 0.90+ son típicas. El conjunto de datos y el código de evaluación de VRDU se pondrán a disposición del público con la esperanza de que ayuden a avanzar en el estado del arte de la comprensión de documentos en los equipos de investigación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los autos sin conductor pueden tener dificultades para detectar a los niños y a las personas de piel oscura.

Los científicos evaluaron ocho detectores de peatones basados en inteligencia artificial utilizados en la investigaci...

Aprendizaje Automático

¿Qué es Machine Learning como Servicio? Beneficios y principales plataformas de MLaaS.

El aprendizaje automático utiliza análisis estadísticos para generar resultados de predicción sin requerir programaci...

Inteligencia Artificial

Esta investigación de IA presenta PERF la transformación Panorámica NeRF que convierte imágenes individuales en escenas 3D explorables.

NeRF significa Neural Radiance Fields, una técnica de aprendizaje profundo para la reconstrucción de escenas en 3D y ...

Inteligencia Artificial

(Note 'Inpainting' is translated as 'relleno de imágenes' which means 'image filling')

¿Cómo se pueden completar de manera efectiva las secciones faltantes de una captura 3D? Este artículo de investigació...

Inteligencia Artificial

Transforma imágenes de moda en impresionantes videos fotorrealistas con el marco de IA DreamPose

La fotografía de moda es omnipresente en plataformas en línea, incluyendo redes sociales y sitios web de comercio ele...

Inteligencia Artificial

ChatGPT tiende hacia el liberalismo

Investigaciones realizadas por científicos de la Universidad de East Anglia en el Reino Unido sugieren que el ChatGPT...