V-JEPA 2: Selbstüberwachte Videomodelle ermöglichen Verständnis, Vorhersage und Planung
Englishto
Die nächste Generation selbstlernender Videomodelle: Wie KI unsere Welt versteht, vorhersagt und plant.
Stellen wir uns eine künstliche Intelligenz vor, die nicht nur einzelne Bilder, sondern ganze Videoströme aus dem Internet nutzt, um die Welt so zu begreifen, wie wir Menschen es tun. V-JEPA 2 steht für diese neue Generation von KI-Systemen – und bringt uns einen gewaltigen Schritt näher an Maschinen, die eigenständig beobachten, verstehen, vorausahnen und sogar in der realen Welt handeln können.
Das Herzstück dieses Ansatzes ist die Fähigkeit, aus über einer Million Stunden Internetvideos und Bildern zu lernen – ganz ohne menschliche Anleitung oder festgelegte Aufgaben. Die KI analysiert komplexe Bewegungsabläufe, erkennt Muster, versteht Zusammenhänge und entwickelt ein tiefes, internes Modell der Welt. So kann sie nicht nur Szenen erkennen, sondern auch präzise vorhersagen, was als Nächstes passieren wird – etwa welche menschliche Handlung auf eine bestimmte Bewegung folgt. Bei Aufgaben zur Bewegungserkennung und zum Antizipieren menschlicher Handlungen erreicht sie beeindruckende Spitzenwerte, die bislang unerreicht waren.
Doch V-JEPA 2 bleibt nicht im Reich der Theorie. Durch die Kombination mit großen Sprachmodellen gelingt es, nicht nur Videos zu verstehen, sondern auch Fragen dazu zu beantworten. Die KI verbindet die visuelle Wahrnehmung mit Sprache und beweist ihr Verständnis für die physische und zeitliche Struktur unserer Welt in anspruchsvollen Frage-Antwort-Tests.
Das eigentlich Revolutionäre zeigt sich aber, wenn es ums Handeln geht. Mit nur wenigen Stunden unkommentierter Roboter-Videos lernt V-JEPA 2-AC zielgerichtetes Handeln: Ein Roboterarm kann plötzlich Objekte greifen und an neue Orte bewegen – in völlig neuen Umgebungen, mit unbekannten Gegenständen, ohne dass er je zuvor auf diese speziellen Aufgaben trainiert wurde. Alles, was die KI braucht, sind Beobachtungen und ein gewünschtes Zielbild. Sie plant und handelt eigenständig, als hätte sie eine Intuition für die Dynamik der Welt entwickelt.
Der Schlüssel zu diesem Erfolg liegt in einer intelligenten Trainingsstrategie: Zunächst lernt das Modell durch das Lösen von Rätseln in Videos – indem es maskierte Bildteile aus dem Kontext heraus wiederherstellt. So entsteht ein tiefes, vielschichtiges Verständnis für Bewegung und Erscheinung. Im nächsten Schritt wird das System mit wenigen realen Interaktionsdaten in die Lage versetzt, eigene Handlungen zu planen und gezielt auf Ziele hinzuarbeiten.
V-JEPA 2 beweist damit, dass eine KI, die vor allem durch Beobachtung und ohne explizite Anweisungen lernt, nicht nur sehen und verstehen, sondern auch handeln und planen kann – flexibel, effizient und generalisierend wie nie zuvor. Der Traum von Maschinen, die aus reiner Erfahrung lernen und in unserer Welt eigenständig agieren, rückt damit in greifbare Nähe.
0shared

V-JEPA 2: Selbstüberwachte Videomodelle ermöglichen Verständnis, Vorhersage und Planung