Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Microsoft AI propone MM-REACT, un paradigma que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Los Grandes Modelos de Lenguaje (LLMs) están avanzando rápidamente y contribuyendo a transformaciones económicas y sociales notables. Con muchas herramientas de inteligencia artificial (IA) que se lanzan en Internet, una de las herramientas más populares en los últimos meses es ChatGPT. ChatGPT es un modelo de procesamiento de lenguaje natural que permite a los usuarios generar texto significativo como los humanos. ChatGPT de OpenAI se basa en la arquitectura transformadora GPT, siendo GPT-4 el último modelo de lenguaje que lo impulsa.

Con los últimos avances en inteligencia artificial y aprendizaje automático, la visión por computadora ha avanzado exponencialmente, con una arquitectura de red mejorada y un entrenamiento de modelos a gran escala. Recientemente, algunos investigadores han introducido MM-REACT, que es un paradigma de sistema que combina numerosos expertos en visión con ChatGPT para el razonamiento y la acción multimodales. MM-REACT combina modelos de visión individuales con el modelo de lenguaje de manera más flexible para superar desafíos complicados de comprensión visual.

MM-REACT se ha desarrollado con el objetivo de ocuparse de una amplia gama de tareas visuales complejas con las que los modelos de visión y visión-lenguaje existentes tienen dificultades. Para esto, MM-REACT utiliza un diseño de indicación para representar diversos tipos de información, como descripciones de texto, coordenadas espaciales textualizadas y señales visuales densas, como imágenes y videos, representados como nombres de archivo alineados. Este diseño permite que ChatGPT acepte y procese diferentes tipos de información en combinación con la entrada visual, lo que lleva a una comprensión más precisa y completa.

MM-REACT es un sistema que combina las habilidades de ChatGPT con un conjunto de expertos en visión para agregar funcionalidades multimodales. La ruta del archivo se utiliza como marcador de posición y se ingresa en ChatGPT para que el sistema acepte imágenes como entrada. Cuando el sistema necesita información específica de la imagen, como identificar el nombre de una celebridad o las coordenadas de una caja, ChatGPT busca ayuda de un experto en visión específico. La salida del experto se serializa como texto y se combina con la entrada para activar aún más ChatGPT. Si no se necesitan expertos externos, la respuesta se devuelve directamente al usuario.

Se ha diseñado ChatGPT para comprender el conocimiento de los usos de los expertos en visión al agregar ciertas instrucciones a las indicaciones de ChatGPT que están relacionadas con la capacidad de cada experto, el tipo de argumento de entrada y el tipo de salida, junto con algunos ejemplos en contexto para cada experto. Además, se instruye una palabra clave especial para usar la coincidencia de expresiones regulares para invocar al experto correspondiente.

Mediante experimentación, los experimentos sin entrenamiento han demostrado cómo MM-REACT aborda eficazmente sus capacidades particulares de interés. Se ha demostrado que es eficiente para resolver una amplia gama de tareas visuales avanzadas que requieren una comprensión visual compleja. Los autores han compartido algunos ejemplos en los que MM-REACT es capaz de proporcionar soluciones a ecuaciones lineales mostradas en una imagen. También es capaz de realizar comprensión conceptual nombrando productos en la imagen y sus ingredientes, entre otras cosas. En conclusión, este paradigma de sistema combina de manera excelente la experiencia en lenguaje y visión y es capaz de lograr una inteligencia visual avanzada.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de UCL y Google proponen AudioSlots un modelo generativo centrado en slots para la separación de fuentes ciegas en el dominio de audio.

El uso de redes neuronales en arquitecturas que operan en datos estructurados en conjuntos y aprenden a mapear desde ...

Investigación

Entrenando máquinas para aprender más como lo hacen los humanos

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a represent...

Inteligencia Artificial

Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA

Los Transformers fueron introducidos por primera vez y rápidamente se elevaron a la prominencia como la arquitectura ...

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...