V-JEPA 2: i modelli video auto-supervisionati consentono la comprensione, la previsione e la pianificazione
Englishto
Il futuro dell’Intelligenza Artificiale che osserva, capisce e pianifica il mondo.
Immagina di addestrare un’intelligenza artificiale non con regole rigide o istruzioni dettagliate, ma lasciandola osservare il mondo, proprio come fanno i bambini. Questo è il cuore di V-JEPA 2, un modello che rivoluziona il modo in cui le macchine apprendono, interpretano e interagiscono con la realtà fisica.
V-JEPA 2 è stato pre-addestrato su una quantità immensa di video raccolti dal web, oltre un milione di ore, senza alcuna informazione specifica sulle azioni svolte nei filmati. L’idea è che, osservando semplicemente ciò che accade, il modello possa imparare a riconoscere movimenti, anticipare gesti umani e comprendere le dinamiche degli oggetti. Questo tipo di apprendimento, chiamato auto-supervisionato, non necessita di etichette o ricompense, ma si basa solo sulla capacità di predire ciò che succederà dopo, dato ciò che si vede ora.
Cosa rende V-JEPA 2 così speciale? Innanzitutto, la sua capacità di cogliere i dettagli rilevanti: il modello si concentra sugli aspetti prevedibili di una scena, come la traiettoria di un oggetto in movimento, ignorando invece i dettagli caotici o casuali. Questa attenzione selettiva permette di ottenere rappresentazioni video estremamente efficaci, che eccellono in compiti come la classificazione delle azioni o il riconoscimento di oggetti, raggiungendo risultati tra i migliori mai ottenuti.
Ma il vero salto è nell’anticipazione e nella pianificazione. Una volta che il modello ha imparato a osservare il mondo, viene raffinato con una manciata di dati raccolti da robot in azione: meno di 62 ore di video in cui bracci robotici interagiscono con oggetti. Senza alcun addestramento specifico per i nuovi ambienti, il sistema è in grado di pianificare e realizzare azioni complesse, come afferrare e spostare oggetti mai visti prima. Tutto questo avviene semplicemente indicando al robot l’obiettivo attraverso un’immagine: il modello, forte della sua comprensione acquisita, sa prevedere quali azioni intraprendere per raggiungerlo.
Un altro aspetto sorprendente è la sinergia tra la comprensione visiva e il linguaggio: V-JEPA 2, collegato a un grande modello di linguaggio, risponde a domande su video, dimostrando una comprensione profonda del contesto e della sequenza temporale degli eventi.
In sostanza, V-JEPA 2 segna un passo avanti verso intelligenze artificiali che imparano osservando il mondo in modo scalabile, flessibile e generale. Non si limitano a eseguire compiti prefissati, ma sono in grado di capire, prevedere e pianificare in ambienti mai incontrati prima, avvicinandosi sempre più al modo in cui apprendono gli esseri umani.
0shared

V-JEPA 2: i modelli video auto-supervisionati consentono la comprensione, la previsione e la pianificazione