El primer paso de MuZero de la investigación al mundo real.

'MuZero del laboratorio al mundo real.'

Colaborando con YouTube para optimizar la compresión de video en el códec de código abierto VP9.

En 2016, presentamos AlphaGo, el primer programa de inteligencia artificial en vencer a los humanos en el antiguo juego del Go. Sus sucesores, AlphaZero y luego MuZero, representaron un avance significativo en la búsqueda de algoritmos de propósito general, dominando un mayor número de juegos con menos conocimiento predefinido. MuZero, por ejemplo, dominó el ajedrez, el Go, el Shogi y el Atari sin necesidad de que se le enseñaran las reglas. Pero hasta ahora, estos agentes se han centrado en resolver juegos. Ahora, en busca de la misión de DeepMind de resolver la inteligencia, MuZero ha dado el primer paso hacia el dominio de una tarea del mundo real al optimizar los videos en YouTube.

En un preprint publicado en arXiv, detallamos nuestra colaboración con YouTube para explorar el potencial de MuZero para mejorar la compresión de video. Los analistas predijeron que la transmisión de video habría representado la gran mayoría del tráfico de Internet en 2021. Con el aumento de videos durante la pandemia de COVID-19 y la expectativa de que la cantidad total de tráfico de Internet aumente en el futuro, la compresión de video es un problema cada vez más importante, y un área natural para aplicar el aprendizaje por refuerzo (RL) para mejorar el estado del arte en un dominio desafiante. Desde su lanzamiento en producción en una parte del tráfico en vivo de YouTube, hemos demostrado una reducción promedio del 4% en la tasa de bits en un amplio y diverso conjunto de videos.

La mayoría de los videos en línea dependen de un programa llamado códec para comprimir o codificar el video en su origen, transmitirlo por Internet al espectador y luego descomprimir o decodificarlo para su reproducción. Estos códecs toman múltiples decisiones para cada fotograma en un video. Décadas de ingeniería manual se han dedicado a optimizar estos códecs, que son responsables de muchas de las experiencias de video ahora posibles en Internet, como video a pedido, videollamadas, videojuegos y realidad virtual. Sin embargo, debido a que el RL es especialmente adecuado para problemas de toma de decisiones secuenciales como los de los códecs, estamos explorando cómo puede ayudar un algoritmo aprendido por RL.

Nuestro enfoque inicial se centra en el códec VP9 (específicamente en la versión de código abierto libvpx), ya que es ampliamente utilizado por YouTube y otros servicios de transmisión. Al igual que con otros códecs, los proveedores de servicios que utilizan VP9 deben considerar la tasa de bits, es decir, la cantidad de unos y ceros necesarios para enviar cada fotograma de un video. La tasa de bits es un determinante importante en la cantidad de cómputo y ancho de banda requeridos para servir y almacenar videos, lo que afecta desde el tiempo de carga de un video hasta su resolución, almacenamiento en búfer y uso de datos.

Mientras codifica un video, los códecs utilizan información de fotogramas anteriores para reducir la cantidad de bits necesarios para los fotogramas futuros.

En VP9, la tasa de bits se optimiza principalmente a través del parámetro de cuantización (QP) en el módulo de control de tasa. Para cada fotograma, este parámetro determina el nivel de compresión que se aplicará. Dado un objetivo de tasa de bits, los QP para los fotogramas de video se deciden de manera secuencial para maximizar la calidad de video general. Intuitivamente, se deben asignar tasas de bits más altas (QP más bajo) a escenas complejas y tasas de bits más bajas (QP más alto) a escenas estáticas. El algoritmo de selección de QP razona cómo el valor de QP de un fotograma de video afecta la asignación de tasas de bits del resto de los fotogramas de video y la calidad de video general. El RL es especialmente útil para resolver este tipo de problemas de toma de decisiones secuenciales.

Para cada fotograma de video procesado por VP9, MuZero-RC, reemplazando el mecanismo de control de tasa predeterminado de VP9, decide el nivel de compresión a aplicar, logrando una calidad similar a una tasa de bits más baja.

MuZero logra un rendimiento sobrehumano en diversas tareas combinando el poder de la búsqueda con su capacidad de aprender un modelo del entorno y planificar en consecuencia. Esto funciona especialmente bien en espacios de acción grandes y combinatorios, lo que lo convierte en una solución ideal para el problema del control de tasa en la compresión de video. Sin embargo, lograr que MuZero funcione en esta aplicación del mundo real requiere resolver un conjunto completamente nuevo de problemas. Por ejemplo, el conjunto de videos cargados en plataformas como YouTube varía en contenido y calidad, y cualquier agente debe generalizar entre videos, incluidos videos completamente nuevos después de la implementación. En comparación, los juegos de mesa tienden a tener un entorno conocido único. Otros muchos métricas y restricciones afectan la experiencia de usuario final y los ahorros de tasa de bits, como la relación señal-ruido pico (PSNR) y la restricción de tasa de bits.

Para abordar estos desafíos con MuZero, creamos un mecanismo llamado auto-competencia, que convierte el objetivo complejo de compresión de video en una señal simple de GANAR/PERDER al comparar el rendimiento actual del agente con su rendimiento histórico. Esto nos permite convertir un conjunto completo de requisitos de códec en una señal simple que puede ser optimizada por nuestro agente.

Video codificado con heurísticas de QP anteriores Video codificado con MuZero-RC Ahorro de bitrate 4.7% Video codificado con heurísticas de QP anteriores Video codificado con MuZero-RC Ahorro de bitrate 4.1% Video codificado con heurísticas de QP anteriores Video codificado con MuZero-RC Ahorro de bitrate 3.5% Utilizando MuZero-RC, logramos obtener una calidad similar en cada video, al mismo tiempo que reducimos el bitrate requerido, demostrando una reducción promedio del 4% en el bitrate en un conjunto grande y diverso de videos en vivo de YouTube.

Al aprender la dinámica de la codificación de video y determinar la mejor manera de asignar bits, nuestro Controlador de Tasa de MuZero (MuZero-RC) es capaz de reducir el bitrate sin degradación de calidad. La selección de QP es solo una de las numerosas decisiones de codificación en el proceso de codificación. Si bien décadas de investigación e ingeniería han dado como resultado algoritmos eficientes, visualizamos un solo algoritmo que pueda aprender automáticamente a tomar estas decisiones de codificación para obtener el mejor equilibrio entre tasa y distorsión.

Más allá de la compresión de video, este primer paso en la aplicación de MuZero fuera de los entornos de investigación sirve como ejemplo de cómo nuestros agentes de RL pueden resolver problemas del mundo real. Al crear agentes equipados con una variedad de nuevas habilidades para mejorar productos en diversos ámbitos, podemos ayudar a que varios sistemas informáticos sean más rápidos, menos intensivos y más automatizados. Nuestra visión a largo plazo es desarrollar un solo algoritmo capaz de optimizar miles de sistemas del mundo real en una variedad de ámbitos.

Escucha a Jackson Broshear y David Silver hablar sobre MuZero con Hannah Fry en el Episodio 5 de DeepMind: The Podcast. Escucha ahora en tu aplicación de podcast favorita buscando “DeepMind: The Podcast”.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el esta...

Inteligencia Artificial

Crea una tubería de inferencia de IA para imágenes médicas con MONAI Deploy en AWS

En esta publicación, te mostramos cómo crear un conector MAP para AWS HealthImaging, que es reutilizable en aplicacio...

Inteligencia Artificial

EE.UU. acuerda sobre reglas históricas de Inteligencia Artificial

El acuerdo sobre la Ley de Inteligencia Artificial solidifica uno de los primeros intentos en el mundo de limitar el ...

Inteligencia Artificial

AR y AI El papel de la IA en la Realidad Aumentada

Introducción Las industrias numéricas están siendo transformadas por las tecnologías revolucionarias de la inteligenc...

Noticias de Inteligencia Artificial

Conoce el nuevo modelo Zeroscope v2 un modelo gratuito de texto a video que se ejecuta en tarjetas gráficas modernas.

En una serie de eventos sin precedentes, se ha lanzado al mercado un modelo de inteligencia artificial de código abie...

Inteligencia Artificial

Mejores generadores de música de IA (septiembre de 2023)

Los generadores de música de inteligencia artificial (IA) son programas informáticos que crean música. Esto se puede ...