Conoce a KITE Un marco de inteligencia artificial para la manipulación semántica utilizando puntos clave como representación para el enlace visual y la inferencia precisa de acciones.

KITE un marco de IA para la manipulación semántica con puntos clave como representación para el enlace visual y la inferencia precisa de acciones.

Con el creciente avance en el campo de la Inteligencia Artificial, la tecnología de IA está comenzando a combinarse con la robótica. Desde la Visión por Computadora y el Procesamiento del Lenguaje Natural hasta la computación en el borde, la IA se integra con la robótica para desarrollar soluciones significativas y efectivas. Los robots de IA son máquinas que actúan en el mundo real. Es importante considerar la posibilidad del lenguaje como medio de comunicación entre las personas y los robots. Sin embargo, dos problemas principales impiden que los robots modernos manejen eficientemente las entradas de lenguaje libre. El primer desafío es permitir que un robot razonar sobre lo que necesita manipular en función de las instrucciones proporcionadas. Otro desafío son las tareas de recoger y colocar en las que se necesita discernimiento cuidadoso al recoger objetos como animales de peluche por sus orejas en lugar de sus patas o botellas de jabón por sus dispensadores en lugar de sus lados.

Los robots deben extraer escenas y semánticas de objetos de las instrucciones de entrada y planificar acciones precisas a nivel bajo de acuerdo para realizar manipulación semántica. Para superar estos desafíos, investigadores de la Universidad de Stanford han introducido KITE (Keypoints + Instructions to Execution), un marco de dos pasos para la manipulación semántica. Tanto las semánticas de escena como las semánticas de objeto se tienen en cuenta en KITE. Mientras que las semánticas de objeto localizan con precisión varias partes dentro de una instancia de objeto, las semánticas de escena implican discriminar entre varios objetos en una escena visual.

La primera fase de KITE implica emplear puntos clave de imágenes en 2D para fundamentar una instrucción de entrada en un contexto visual. Para la inferencia de acciones subsiguientes, este procedimiento ofrece un sesgo centrado en objetos muy preciso. El robot desarrolla una comprensión precisa de los elementos y sus características pertinentes mediante la asignación del comando a puntos clave en la escena. El segundo paso de KITE implica ejecutar una habilidad condicionada por puntos clave aprendidos en base a la observación de la escena RGB-D. El robot utiliza estas habilidades parametrizadas para llevar a cabo la instrucción proporcionada. Los puntos clave y las habilidades parametrizadas trabajan juntos para proporcionar manipulación detallada y generalización a las diferencias en escenas y objetos.

Para la evaluación, el equipo ha evaluado el rendimiento de KITE en tres entornos reales: preparación de café de alta precisión, agarre semántico y manipulación de mesa de largo alcance de 6 grados de libertad. KITE completó la tarea de preparar café con una tasa de éxito del 71%, una tasa de éxito del 70% para el agarre semántico y una tasa de éxito del 75% para el seguimiento de instrucciones en el escenario de manipulación de la mesa. KITE superó a los marcos que utilizan fundamentos basados en puntos clave en lugar de modelos de lenguaje visual preentrenados. Tuvo un mejor rendimiento que los marcos que enfatizan el control visuomotor de extremo a extremo sobre el uso de habilidades.

KITE logró estos resultados a pesar de haber tenido la misma cantidad o menos demostraciones durante el entrenamiento, lo que demuestra su efectividad y eficiencia. Para asignar una imagen y una frase de lenguaje a un mapa de calor de saliencia y producir un punto clave, KITE utiliza una técnica similar a CLIPort. Para producir puntos de habilidad, la arquitectura habilidosa modifica PointNet++ para aceptar una nube de puntos de varias vistas de entrada anotada con un punto clave. Los puntos clave en 2D permiten que KITE atienda con precisión a las características visuales, mientras que las nubes de puntos en 3D proporcionan el contexto necesario de 6 grados de libertad para la planificación.

En conclusión, el marco KITE presenta una solución prometedora al desafío de larga data de permitir que los robots interpreten y sigan comandos de lenguaje natural en el contexto de la manipulación. Logra una manipulación semántica detallada con alta precisión y generalización utilizando el poder de los puntos clave y la fundamentación de instrucciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo las industrias están cumpliendo las expectativas de los consumidores con la IA de voz

Gracias a los rápidos avances tecnológicos, los consumidores se han acostumbrado a un nivel sin precedentes de comodi...

Inteligencia Artificial

Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.

Los Modelos de Lenguaje Grande (LLMs) han causado sensación en el mundo. Estos modelos súper efectivos y eficientes s...

Inteligencia Artificial

Primera parte del cuerpo humano derivada 3D impresa en el espacio

La empresa aeroespacial estadounidense Redwire dijo que ha impreso en tres dimensiones una parte del cuerpo humano en...

Ciencias de la Computación

Mercedes incorpora ChatGPT en sus coches.

El fabricante de automóviles alemán Mercedes-Benz se ha asociado con Microsoft para agregar el software de inteligenc...

Inteligencia Artificial

¡Atención Industria del Gaming! No más espejos extraños con Mirror-NeRF

Las NeRF o Campos de Radiancia Neurales utilizan una combinación de RNN y CNN para capturar las características físic...

Inteligencia Artificial

Toma el control NVIDIA NeMo SteerLM permite a las empresas personalizar las respuestas de un modelo durante la inferencia

Los desarrolladores tienen un nuevo volante de conducción asistida por IA para ayudarles a mantenerse en la carretera...