Las métricas pueden engañar, pero los ojos no Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video

Las métricas pueden engañar, pero los ojos no. Este método de IA propone una métrica de calidad perceptual para la interpolación de cuadros de video.

El avance en la tecnología de visualización ha hecho que nuestra experiencia de visualización sea más intensa y agradable. Ver algo en 4K 60FPS es extremadamente satisfactorio que en 1080P 30FPS. El primero te sumerge en el contenido como si lo estuvieras presenciando. Sin embargo, no todos pueden disfrutar de este contenido, ya que no es fácil de transmitir. Un minuto de video en 4K 60FPS cuesta aproximadamente 6 veces más que en 1080P 30FPS en términos de datos, lo cual no está al alcance de muchos usuarios.

Aunque es posible abordar este problema aumentando la resolución y/o la velocidad de fotogramas del video entregado. Los métodos de superresolución abordan el aumento de la resolución del video, mientras que los métodos de interpolación de video se centran en aumentar el número de fotogramas dentro del video.

La interpolación de fotogramas de video se utiliza para agregar nuevos fotogramas en una secuencia de video mediante la estimación del movimiento entre los fotogramas existentes. Esta técnica se ha utilizado ampliamente en diversas aplicaciones, como video a cámara lenta, conversión de velocidad de fotogramas y compresión de video. El video resultante suele verse más agradable.

En los últimos años, la investigación sobre la interpolación de fotogramas de video ha avanzado significativamente. Pueden generar fotogramas intermedios de manera bastante precisa y proporcionar una experiencia de visualización agradable.

Sin embargo, medir la calidad de los resultados de interpolación ha sido una tarea desafiante durante años. Los métodos existentes utilizan principalmente métricas predefinidas para medir la calidad de los resultados de interpolación. Como los resultados de interpolación de fotogramas de video a menudo presentan artefactos únicos, las métricas de calidad existentes a veces no son consistentes con la percepción humana al medir los resultados de interpolación.

Algunos métodos han realizado pruebas subjetivas para obtener mediciones más precisas, pero hacerlo lleva mucho tiempo, con la excepción de algunos métodos que emplean estudios de usuarios. Entonces, ¿cómo podemos medir con precisión la calidad de nuestro método de interpolación de video? Es hora de responder esa pregunta.

Artefactos únicos causados por la interpolación de video. Fuente: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

Un grupo de investigadores presentó una métrica de calidad perceptual dedicada para medir los resultados de interpolación de fotogramas de video. Diseñaron una nueva arquitectura de red neuronal para la evaluación de calidad perceptual de video basada en los Transformadores Swin.

La red toma como entrada un par de fotogramas, uno de la secuencia de video original y uno de los fotogramas interpolados. Produce una puntuación que representa la similitud perceptual entre los dos fotogramas. El primer paso para lograr este tipo de red fue preparar un conjunto de datos, y ahí es donde comenzaron. Construyeron un gran conjunto de datos de similitud perceptual de interpolación de fotogramas de video. Este conjunto de datos contiene pares de fotogramas de varios videos, junto con juicios humanos sobre su similitud perceptual. Este conjunto de datos se utiliza para entrenar la red utilizando una combinación de métricas objetivas L1 y SSIM.

Estructura de red propuesta. Fuente: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136750231.pdf

La pérdida L1 mide la diferencia absoluta entre la puntuación predicha y la puntuación real, mientras que la pérdida SSIM mide la similitud estructural entre dos imágenes. Al combinar estas dos pérdidas, la red se entrena para predecir puntuaciones que sean precisas y consistentes con la percepción humana. Una ventaja importante del método propuesto es que no se basa en fotogramas de referencia; por lo tanto, se puede ejecutar en dispositivos del cliente donde generalmente no tenemos esa información disponible.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

A pesar de los temores de trampas, las escuelas revocan las prohibiciones de ChatGPT

Algunos distritos que antes se apresuraban a bloquear los chatbots de inteligencia artificial ahora están tratando de...

Inteligencia Artificial

El papel proactivo de la IA en el combate a la corrupción en el gobierno

La reciente explosión de modelos generativos de Inteligencia Artificial (IA) ha centrado la atención del mundo en tem...

Inteligencia Artificial

Descubre RAGs una aplicación de Streamlit que te permite crear una tubería RAG a partir de una fuente de datos utilizando lenguaje natural.

Los GPT se destacan en inteligencia artificial en cuanto a tareas de NLP. No obstante, las tuberías construidas e imp...

Noticias de Inteligencia Artificial

La Influencia Revolucionaria de la Inteligencia Artificial Generativa en la Industria Automotriz

La IA generativa ha surgido como una fuerza transformadora en numerosos sectores, incluida la industria automotriz, d...