V-JEPA 2 : les modèles vidéo auto-supervisés permettent la compréhension, la prévision et la planification
Englishto
V-JEPA 2 : L’intelligence artificielle découvre le monde par la vidéo, pour mieux comprendre, prédire et agir.
Imaginez une intelligence artificielle qui apprend comme un enfant, simplement en observant le monde à travers des millions d’heures de vidéos. C’est l’ambition derrière V-JEPA 2, un modèle auto-supervisé qui marque un tournant dans la compréhension et la planification du réel par la machine.
Les humains n’ont pas besoin d’expérimenter chaque situation pour anticiper le futur ou résoudre de nouveaux problèmes. Leur cerveau intègre des perceptions, élabore des modèles internes du monde et prédit les conséquences de leurs actions. V-JEPA 2 s’inspire de cette capacité unique : il apprend sans indication explicite d’action, en analysant massivement des images et vidéos issues du web, pour extraire l’essence même du mouvement, des objets, et des dynamiques du quotidien.
Le secret de cette révolution tient dans l’architecture JEPA. Au lieu de tenter de recréer chaque pixel d’une image ou d’une vidéo, V-JEPA 2 se concentre sur ce qui est prévisible et pertinent : la trajectoire d’une balle, le geste d’une main, la transformation d’une scène. Grâce à une tâche de débruitage visuel, il devine ce qui manque dans des séquences volontairement incomplètes, et affine une représentation interne, robuste et généralisable.
L’échelle du projet est vertigineuse : plus d’un million d’heures de vidéos et autant d’images servent à cette première phase d’apprentissage, sans aucune supervision humaine. Une fois ce socle posé, le modèle reçoit une dose homéopathique d’expériences robotiques, à peine soixante-deux heures de manipulations filmées, pour apprendre à anticiper l’effet de ses propres actions.
Les résultats sont spectaculaires. V-JEPA 2 excelle dans l’interprétation du mouvement, surpasse les références dans l’anticipation d’actions humaines, et s’aligne de façon inédite avec de grands modèles de langage pour répondre à des questions sur des vidéos, démontrant une compréhension profonde du déroulement d’événements visuels complexes.
Mais le modèle ne s’arrête pas là. Grâce à une fine adaptation, il devient capable de piloter un bras robotisé, sans entraînement spécifique, dans des environnements inconnus. Il planifie, saisit, déplace des objets, uniquement guidé par des images-cibles. Cette prouesse, réalisée sans récompenses ni indications sur les tâches, ouvre la voie à une nouvelle génération de robots polyvalents, doués d’un sens intuitif du monde physique.
Avec V-JEPA 2, la frontière entre observation passive et action intelligente s’estompe. L’intelligence artificielle ne se contente plus de reconnaître ; elle devine, anticipe, puis agit, faisant un pas de géant vers la polyvalence, l’adaptabilité et l’autonomie.
0shared

V-JEPA 2 : les modèles vidéo auto-supervisés permettent la compréhension, la prévision et la planification