Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.

Meta AI presents I-JEPA, a revolutionary innovation in computer vision that emulates human and animal learning and reasoning.

Los humanos recogen una gran cantidad de información de fondo sobre el mundo simplemente observándolo. El equipo de Meta ha estado trabajando en el desarrollo de computadoras que puedan aprender modelos internos de cómo funciona el mundo para permitirles aprender mucho más rápido, planificar cómo hacer trabajos difíciles y adaptarse rápidamente a condiciones novedosas desde el año pasado. Para que el sistema sea efectivo, estas representaciones deben aprenderse directamente a partir de entradas sin etiquetar, como imágenes o sonidos, en lugar de conjuntos de datos etiquetados ensamblados manualmente. Este proceso de aprendizaje se conoce como aprendizaje auto-supervisado.

Las arquitecturas generativas se entrenan ocultando o borrando partes de los datos utilizados para entrenar el modelo. Esto podría hacerse con una imagen o texto. Luego, hacen conjeturas educadas sobre qué píxeles o palabras faltan o están distorsionados. Sin embargo, una gran desventaja de los enfoques generativos es que el modelo intenta llenar cualquier vacío en el conocimiento, a pesar de la incertidumbre inherente del mundo real.

Los investigadores de Meta acaban de presentar su primer modelo de inteligencia artificial. Al comparar las representaciones abstractas de las imágenes (en lugar de comparar los píxeles en sí mismos), su Arquitectura Predictiva de Incrustación Conjunta de Imágenes (I-JEPA) puede aprender y mejorar con el tiempo.

Según los investigadores, el JEPA estará libre de los sesgos y problemas que aquejan al pre-entrenamiento basado en la invarianza porque no implica la reducción de representaciones de numerosas vistas / aumentaciones de una imagen a un solo punto.

El objetivo de I-JEPA es llenar los vacíos de conocimiento utilizando una representación más cercana a cómo piensan los individuos. El método de enmascaramiento de múltiples bloques propuesto es otra opción de diseño importante que ayuda a dirigir a I-JEPA hacia el desarrollo de representaciones semánticas.

El predictor de I-JEPA puede considerarse un modelo de mundo limitado y primitivo que puede describir la incertidumbre espacial en una imagen fija basándose en información contextual limitada. Además, la naturaleza semántica de este modelo de mundo le permite hacer inferencias sobre partes previamente desconocidas de la imagen en lugar de depender únicamente de la información a nivel de píxeles.

Para ver las salidas del modelo cuando se le pide pronosticar dentro del cuadro azul, los investigadores entrenaron un decodificador estocástico que transfiere las representaciones predichas por I-JEPA de vuelta al espacio de píxeles. Este análisis cualitativo demuestra que el modelo puede aprender representaciones globales de objetos visuales sin perder de vista dónde están esos objetos en el marco.

El pre-entrenamiento con I-JEPA utiliza pocos recursos informáticos. No requiere la sobrecarga de aplicar aumentaciones de datos más complejas para proporcionar perspectivas diferentes. Los hallazgos sugieren que I-JEPA puede aprender representaciones semánticas robustas y preconstruidas sin mejoras de vista personalizadas. Una evaluación de sonda lineal y semi-supervisada en ImageNet-1K también supera las técnicas de reconstrucción de píxeles y tokens.

En comparación con otros métodos de pre-entrenamiento para tareas semánticas, I-JEPA se defiende a pesar de depender de las aumentaciones de datos producidas manualmente. I-JEPA supera estos enfoques en tareas básicas de visión como el recuento de objetos y la predicción de profundidad. I-JEPA es adaptable a más escenarios ya que utiliza un modelo menos complejo con un sesgo inductivo más flexible.

El equipo cree que los modelos JEPA tienen el potencial de ser utilizados de manera creativa en áreas como la interpretación de video, lo cual es bastante prometedor. El uso y la escalabilidad de enfoques auto-supervisados para desarrollar un modelo amplio del mundo es un gran avance.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Potenciando soluciones del mundo real la sinergia de la IA y .NET

En el siempre cambiante panorama de la tecnología, la fusión de la Inteligencia Artificial (IA) y el marco de trabajo...

Inteligencia Artificial

Optimización del controlador PID Un enfoque de descenso de gradiente

Aprendizaje automático. Aprendizaje profundo. IA. Cada vez más personas utilizan estas tecnologías todos los días. Es...

Inteligencia Artificial

¿Se cayó ChatGPT? ¡Tiempo de inactividad y rápida recuperación del AI de OpenAI!

La comunidad de inteligencia artificial sufrió un breve revés. ChatGPT, un popular chatbot desarrollado por OpenAI, e...

Inteligencia Artificial

¡Abrocha tu cinturón ¡El Falcon 180B está aquí!

Vamos a sumergirnos en el modelo de lenguaje abierto más grande del mundo.

Inteligencia Artificial

Desvelando GPTBot La audaz movida de OpenAI para rastrear la web

En un torbellino de innovación digital, OpenAI ha dado un golpe sorprendente al lanzar GPTBot, un rastreador web dise...

Inteligencia Artificial

Principales herramientas de IA generativa en generación de código/codificación (2023)

Los avances rápidos en tecnologías de IA generativa han llevado a un aumento en el interés y el progreso en aplicacio...