Conoce a Prismer Un modelo de visión-lenguaje de código abierto con un conjunto de expertos.

Prismer un modelo de visión-lenguaje de código abierto con expertos.

Varios modelos recientes de visión y lenguaje han demostrado notables habilidades de generación multimodal. Pero típicamente, requieren entrenar modelos enormes en conjuntos de datos enormes. Los investigadores presentan Prismer, un modelo de visión y lenguaje eficiente en términos de datos y parámetros que utiliza un conjunto de expertos en dominios como una alternativa escalable. Al heredar la mayoría de los pesos de la red de expertos en dominios pre-entrenados y congelarlos durante el entrenamiento, Prismer solo requiere entrenar algunos componentes.

Las habilidades de generalización de los modelos pre-entrenados grandes son excepcionales en muchas tareas diferentes. Sin embargo, estas características tienen un alto costo, requiriendo mucha cantidad de datos de entrenamiento y recursos computacionales para el entrenamiento y la inferencia. Los modelos con cientos de miles de millones de parámetros entrenables son comunes en el dominio del lenguaje, y típicamente requieren un presupuesto computacional a escala de yottaFLOP.

Los problemas relacionados con el aprendizaje visual del lenguaje son más difíciles de resolver. Aunque este campo es un superconjunto del procesamiento del lenguaje, también requiere experiencia en pensamiento visual y multimodal. Utilizando señales multimodales proyectadas, Prismer es un modelo de visión y lenguaje eficiente en términos de datos que utiliza una amplia gama de expertos pre-entrenados. Puede manejar la respuesta a preguntas visuales y la descripción de imágenes, dos ejemplos de tareas de razonamiento de visión y lenguaje. Utilizando un prisma como ejemplo, Prismer divide una tarea de razonamiento general en varios fragmentos más pequeños y manejables.

Los investigadores desarrollaron un modelo de generación de texto autoregresivo condicionado visualmente para aprovechar al máximo varios expertos en dominios pre-entrenados para tareas exploratorias de razonamiento de visión y lenguaje.

Aunque Prismer solo se entrenó con 13 millones de ejemplos de datos de imágenes/texto alternativo públicamente disponibles, muestra un fuerte rendimiento de razonamiento multimodal en tareas como la descripción de imágenes, la clasificación de imágenes y la respuesta a preguntas visuales, que es competitivo con muchos modelos de visión y lenguaje de vanguardia. Los investigadores concluyen con una investigación exhaustiva de los hábitos de aprendizaje de Prismer, donde encuentran varias características positivas.

Diseño del modelo:

El modelo Prismer, mostrado en su versión codificador-decodificador de transformers, se basa en una amplia selección de expertos en temas ya entrenados para acelerar el proceso de entrenamiento. Este sistema se compone de un codificador visual y un decodificador de lenguaje autoregresivo. El codificador visual recibe una secuencia de etiquetas RGB y multimodales (profundidad, normalidad de la superficie y etiquetas de segmentación anticipadas a partir de los expertos pre-entrenados congelados) como entrada. Produce una secuencia de características RGB y multimodales como salida. Como resultado de este entrenamiento de atención cruzada, el decodificador de lenguaje está condicionado para generar una serie de tokens de texto.

Ventajas:

  • El modelo Prismer tiene varias ventajas, pero una de las más destacables es que utiliza los datos de manera extremadamente eficiente durante el entrenamiento. Prismer se construye sobre modelos base pre-entrenados solo en visión y solo en lenguaje para lograr este objetivo con una considerable reducción en las horas de GPU necesarias para obtener un rendimiento equivalente a otros modelos de visión y lenguaje de vanguardia. Se pueden utilizar estos parámetros pre-entrenados para aprovechar las enormes cantidades de conocimiento disponible a escala web.
  • Los investigadores también desarrollaron una entrada de señal multimodal para el codificador visual. El conocimiento auxiliar multimodal creado puede capturar mejor la semántica y la información sobre la imagen de entrada. La arquitectura de Prismer está optimizada para maximizar el uso de expertos entrenados con pocos parámetros entrenables.

Los investigadores han incluido dos variedades de especialistas pre-entrenados en Prismer:

  1. Especialistas en la Base: Los modelos pre-entrenados responsables de traducir texto e imágenes en una secuencia significativa de tokens se denominan modelos “solo en visión” y “solo en lenguaje”, respectivamente.
  2. Según los datos utilizados en su entrenamiento, los moderadores de los Modelos de Discurso pueden etiquetar tareas de diversas formas.

Propiedades:

  • Cuanto más conocedores haya, mejores serán los resultados. A medida que crece el número de especialistas en modalidad en Prismer, mejora su rendimiento.
  • Profesionales más capacitados, mejores resultados: los investigadores reemplazan una fracción de las etiquetas de profundidad predichas con ruido aleatorio tomado de una distribución uniforme para crear un experto de profundidad corrupto y evaluar el efecto de la calidad del experto en el rendimiento de Prismer.
  • Resistencia a opiniones no útiles: los hallazgos demuestran además que el rendimiento de Prismer se mantiene estable cuando se incorporan expertos que predicen ruido.

Échale un vistazo al artículo y al Github. Todo el crédito de esta investigación va para los investigadores de este proyecto. Además, no olvides unirte a nuestro subreddit de ML de más de 26k seguidores, nuestro canal de Discord y nuestro boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos de IA interesantes y más.

Descubre los secretos del aprendizaje profundo con la plataforma de explicabilidad de Tensorleap

El artículo Meet Prismer: un modelo de visión y lenguaje de código abierto con un conjunto de expertos apareció primero en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

La F.T.C. acusa a Amazon de engañar a los usuarios para que se suscriban a Prime.

La demanda es la primera vez que la Comisión Federal de Comercio, bajo el liderazgo de su presidenta, Lina Khan, ha l...

Inteligencia Artificial

Investigadores de UCL y Google proponen AudioSlots un modelo generativo centrado en slots para la separación de fuentes ciegas en el dominio de audio.

El uso de redes neuronales en arquitecturas que operan en datos estructurados en conjuntos y aprenden a mapear desde ...

Inteligencia Artificial

Regs necesarias para la IA de alto riesgo, dice ACM Es el Viejo Oeste

El documento de ACM recomienda que se establezcan nuevas leyes para limitar el uso de IA generativa en ciertas situac...

Inteligencia Artificial

Productividad impulsada por IA la IA generativa abre una nueva era de eficiencia en todas las industrias

Un momento crucial el 22 de noviembre de 2022 fue en su mayoría virtual, pero sacudió los cimientos de casi todas las...