Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).

This AI article proposes injecting the 3D world into large language models and introducing a new complete family of 3D language models (3D-LLMs).

En los últimos años, hemos visto un aumento en los modelos de lenguaje grandes (LLMs) (como GPT4) que son excelentes en varias tareas, incluyendo comunicación y razonamiento de sentido común. Investigaciones recientes han analizado cómo alinear imágenes y videos con LLM para una nueva generación de LLMs multimodales (como Flamingo y BLIP-2) que pueden comprender y dar sentido a imágenes 2D. Sin embargo, a pesar de la efectividad de estos modelos en la comunicación y toma de decisiones, se basan en algo distinto a las nociones más profundas que se encuentran en el mundo físico 3D real, que incluyen cosas como conexiones espaciales, funcionalidades, física e interacción. Como resultado, estos LLMs son insignificantes en comparación con los asistentes robóticos mostrados en películas de ciencia ficción, que pueden comprender situaciones 3D y realizar razonamiento y planificación basados en esas comprensiones. Para lograr esto, sugieren incorporar el mundo 3D en los modelos de lenguaje grandes e introducir una nueva clase de LLMs 3D que puedan procesar varias tareas relacionadas con el 3D utilizando representaciones 3D (es decir, nubes de puntos 3D con atributos asociados) como entrada.

Figura 1

Los LLMs se benefician de dos cosas cuando utilizan representaciones 3D de situaciones como entrada: (1) Pueden almacenar memorias a largo plazo sobre la escena completa en las representaciones 3D holísticas en lugar de observaciones episódicas de vistas parciales. (2) El razonamiento a partir de las representaciones 3D puede inferir características 3D como funcionalidades y conexiones espaciales, yendo mucho más allá de las capacidades de los LLMs basados en lenguaje o imágenes 2D. La recolección de datos es una barrera significativa para entrenar los propuestos LLMs 3D. La falta de datos 3D dificulta la creación de modelos de base basados en datos 3D, a diferencia de la abundancia de datos acoplados de imágenes y texto en Internet. Aún más difícil de obtener son los datos 3D combinados con descripciones verbales.

Sugieren una colección de procesos distintivos de generación de datos que proporcionan grandes cantidades de datos 3D vinculados con el lenguaje para resolver esto. Proponen tres procesos efectivos de promoción para la comunicación entre datos 3D y lenguaje, específicamente utilizando ChatGPT. Como se ilustra en la Figura 1, pueden adquirir 300k datos de lenguaje-3D de esta manera, que incluyen información sobre varias tareas como descripción de imágenes 3D, descripción densa, preguntas y respuestas 3D, descomposición de tareas 3D, fundamentación 3D, diálogo asistido por 3D, navegación y más. La siguiente dificultad es encontrar atributos 3D útiles que coincidan con características del lenguaje para los LLMs 3D. Un método es entrenar codificadores 3D desde cero utilizando un paradigma de aprendizaje por contraste similar a CLIP, que alinea lenguaje e imágenes 2D. Sin embargo, este enfoque utiliza muchos datos, tiempo y recursos de GPU. Desde un ángulo diferente, varios esfuerzos recientes (como la fusión de ideas y 3D-CLR) construyen características 3D a partir de fotos 2D de múltiples vistas. También utilizan un extractor de características 3D que crea características 3D a partir de las características 2D preentrenadas de imágenes de múltiples vistas renderizadas en respuesta a esto.

Muchos modelos visual-lenguaje (como BLIP-2 y Flamingo) han comenzado recientemente a utilizar las características CLIP preentrenadas en 2D para entrenar sus modelos VLM. Pueden utilizar fácilmente los modelos VLM en 2D como base e ingresar las características 3D extraídas para entrenar de manera efectiva los LLMs 3D, ya que se mapean al mismo espacio de características que las características preentrenadas en 2D. El hecho de que se espera que los LLMs 3D tengan un sentido espacial 3D subyacente de la información los diferencia de los LLMs tradicionales y los modelos VLM en 2D de varias maneras importantes. Como resultado, investigadores de UCLA, la Universidad Jiao Tong de Shanghai, la Universidad de Tecnología del Sur de China, la Universidad de Illinois Urbana-Champaign, MIT, UMass Amherst y el Laboratorio de IA MIT-IBM Watson crean un sistema de localización 3D que conecta el lenguaje con lugares geográficos. Agregan incrustaciones de posición 3D a las características 3D recuperadas para codificar información espacial de manera más efectiva. Además, agregan varios tokens de ubicación a los LLMs 3D. Luego, se puede entrenar la localización produciendo tokens de ubicación basados en descripciones lingüísticas de ciertos elementos en las escenas. Esto permitiría a los LLMs 3D registrar datos espaciales 3D de manera más efectiva.

En conclusión, su artículo presenta las siguientes contribuciones:

• Presentan una nueva familia de modelos de lenguaje en 3D (3D-LLMs) que pueden procesar una variedad de tareas relacionadas con el 3D utilizando como entrada puntos en 3D con características y estímulos en lenguaje. Se enfocan en actividades que están fuera del ámbito de los modelos convencionales o en 2D-LLMs, como aquellas que involucran el conocimiento de una escena completa, conexiones espaciales en 3D, affordances y planificación en 3D.

• Crean innovadoras tuberías de recolección de datos que pueden generar mucha información en lenguaje 3D. Basándose en estas tuberías, recopilan un conjunto de datos con más de 300,000 puntos de datos en lenguaje 3D que abarcan una amplia gama de actividades relacionadas con el 3D, como anclaje en 3D, descripción densa, respuesta a preguntas en 3D, descomposición de tareas, diálogo asistido en 3D, navegación, etc.

• Utilizan un extractor de características en 3D, que toma imágenes renderizadas en vista múltiple y extrae características útiles en 3D. Construyen su sistema de entrenamiento utilizando VLMs pre-entrenados en 2D. Para entrenar mejor a los 3D-LLMs y recolectar información espacial en 3D, agregaron un método de localización en 3D.

• ScanQA, un conjunto de evaluación reservado, tiene un mejor rendimiento en experimentos que los baselines de vanguardia. En ScanQA, los 3D-LLMs, en particular, tienen un rendimiento mucho mejor que los baselines (por ejemplo, un 9% para BLEU-1) que los baselines. Su enfoque supera a los VLMs en 2D en pruebas que utilizan conjuntos de datos internos para el anclaje en 3D, creación de tareas y discurso asistido en 3D. Las investigaciones cualitativas muestran que su enfoque puede manejar una amplia gama de trabajos con mayor detalle.

• Desean poner a disposición para estudios futuros sus 3D-LLMs, el conjunto de datos en lenguaje 3D y las características en 3D alineadas con el lenguaje del conjunto de datos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

DreamBooth Difusión estable para imágenes personalizadas

Introducción Bienvenido al mundo de las técnicas de Difusión Estable para crear imágenes personalizadas, donde la cre...

Inteligencia Artificial

Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.

Los Modelos de Lenguaje Grande (LLMs) han causado sensación en el mundo. Estos modelos súper efectivos y eficientes s...

Inteligencia Artificial

ChatGPT con Ojos y Oídos BuboGPT es un Enfoque de IA que Permite la Fundamentación Visual en LLMs Multi-Modales

I had trouble accessing your link so I’m going to try to continue without it. Los Modelos de Lenguaje Grandes (...