V-JEPA 2：自己監視型ビデオモデルにより、理解、予測、計画が可能に

30 Jun 2025@Lara_Notes_Translated

Englishto

映像から学び、未来を予測し、計画できるAIの新しい世界人間は、見たり聞いたりしたことから世界を理解し、見知らぬ状況でも柔軟に行動できる能力を持っています。こうした「観察から学ぶ力」をAIにも与えることは、これまでの人工知能の大きな課題でした。その鍵となるのが、「世界モデル」と呼ばれる、現実の環境や物理的な変化を内部でシミュレーションできるAIモデルの構築です。この分野の最先端を切り拓くのが、V-JEPA 2という自己教師あり（self-supervised）映像モデルです。V-JEPA 2は、インターネット上の膨大な動画（100万時間以上）と画像を活用し、人間の行動や物体の動き、さらには未来の出来事までを理解・予測する能力を身につけています。特徴的なのは、「アクションなし」の動画から世界の変化を学びとり、その知識を基盤として、少量のロボット実験データだけで実際の計画や操作にまで応用できる点です。 V-JEPA 2の学習は二段階で進みます。まずは大量の動画で「見て学ぶ」段階。映像の一部を隠し、その隠された部分を推測する課題を繰り返すことで、動きや物体の特徴を捉える高精度な表現力を獲得します。その結果、人物の行動や物体の認識、動きの理解といったタスクで従来の専門モデルをしのぐ精度を達成しました。例えば、人間の行動の先読みや複雑な動画に対する質問応答では、これまでの大規模モデルを上回る成果を示しています。次の段階では、この学習済みの映像モデルに、わずか62時間分のロボット操作動画（アクション付き）を加えて「行動条件付きの世界モデル（V-JEPA 2-AC）」を構築します。このモデルはロボットの操作計画にも活用でき、未知の環境や新しい物体でも、事前学習した知識を生かし「ゼロショット」で物の把持や配置といった操作を実現します。しかも、特定の環境やタスクごとの追加学習や報酬設計は不要です。さらに、V-JEPA 2は大規模な言語モデル（LLM）と連携することで、映像の内容に基づく自然な質問応答も実現しています。言語の教師なしで学んだ映像表現が、言語モデルと組み合わせるだけで、物理的世界や時間的関係の理解を問う難問にも対応できることが示されました。これらの成果は、インターネット規模の映像データと少量の実体験データを組み合わせることで、AIが観察から世界の本質を学び取り、予測し、計画し、実際に行動できる時代の到来を感じさせます。映像から「見て学ぶ」AIは、今後、ロボットやインタラクティブなエージェント、さまざまな実世界応用にとって大きな可能性を秘めているのです。

0shared

V-JEPA 2：自己監視型ビデオモデルにより、理解、予測、計画が可能に

I'll take...