V-JEPA 2: los modelos de vídeo autosupervisados permiten la comprensión, la previsión y la planificación

30 Jun 2025@Lara_Notes_Translated

Englishto

El salto hacia una inteligencia artificial que comprende y planea en el mundo real. Imagina un sistema capaz de observar el mundo, entender lo que sucede, prever lo que vendrá y actuar en consecuencia, todo sin depender de instrucciones explícitas ni datos etiquetados. Ese es el poder de los modelos auto-supervisionados de video y, en particular, de V-JEPA 2, una nueva arquitectura que marca un antes y un después en la comprensión, predicción y planificación por parte de la inteligencia artificial. Durante décadas, los seres humanos han sido el referente de la adaptabilidad y la capacidad de generalización: aprendemos observando, anticipando lo que ocurrirá y planificando nuestras acciones en función de nuestras metas, incluso en entornos completamente nuevos. Inspirada en esta flexibilidad cognitiva, la inteligencia artificial está dando un salto monumental al entrenar modelos con millones de horas de videos reales extraídos de internet, capturando así la vasta diversidad de situaciones y dinámicas del mundo físico. El corazón de este avance es un preentrenamiento masivo que no requiere información sobre acciones ni recompensas específicas; simplemente observa. Mediante un proceso de enmascaramiento visual y predicción en el espacio de representaciones, el modelo aprende a recomponer escenas y anticipar el flujo de los acontecimientos, priorizando los elementos predecibles y relevantes sobre los detalles superfluos. Esta estrategia permite que la IA capte aspectos esenciales del movimiento, la interacción entre objetos y la lógica de los escenarios cotidianos. Pero la magia no termina ahí. El modelo resultante, una vez alineado con modelos de lenguaje, adquiere una impresionante capacidad para responder preguntas sobre videos, razonar sobre la temporalidad de los eventos y demostrar una comprensión profunda de lo que ocurre en pantalla. De hecho, alcanza desempeños líderes en tareas de anticipación de acciones humanas y en pruebas que exigen razonamiento físico y secuencial. Lo más sorprendente surge cuando este conocimiento, adquirido principalmente a partir de la observación pasiva, se combina con una pequeña fracción de datos de interacción provenientes de robots. El modelo se transforma en un “modelo del mundo” capaz de planificar y ejecutar acciones en robots reales, como brazos mecánicos, sin haber sido entrenado explícitamente para las tareas que enfrenta. Puede manipular objetos nuevos, operar en laboratorios inéditos y resolver retos de manipulación sin haber recibido ejemplos directos ni recompensas específicas. Todo esto, gracias a la riqueza de la información visual previamente absorbida. Este enfoque redefine las fronteras de la inteligencia artificial, demostrando que la auto-supervisión y la observación a gran escala pueden dotar a los sistemas de una comprensión genuina, la habilidad de anticipar e incluso la de planificar en entornos físicos complejos. Estamos ante una nueva generación de IA que, al igual que nosotros, aprende observando el mundo y está lista para actuar en él.

0shared

V-JEPA 2: los modelos de vídeo autosupervisados permiten la comprensión, la previsión y la planificación

I'll take...