V-JEPA 2：自我監督的影片模型有助於理解、預測和規劃

30 Jun 2025@Lara_Notes_Translated

Englishto

自监督视频模型V-JEPA 2：开启理解、预测与规划的全新视角。想象一下，人工智能能够像人类一样，通过观察世界的视频来学习理解事物、预测未来并自主规划行动。这正是V-JEPA 2所带来的变革。V-JEPA 2是一种自监督视频模型，专为让AI利用大规模视频数据和极少量交互信息，建立对现实世界的深刻理解和操作能力而设计。模型训练的第一步，是在超过100万小时的互联网视频和大量图片上进行无动作的自监督预训练。通过一种视觉遮罩去噪任务，模型学会在特征空间中恢复被遮挡的视频片段，专注于场景中可以预测的关键动态，比如物体运动轨迹。这种训练方式让V-JEPA 2在运动理解任务上表现优异，在动作分类和动作预判等领域创下新高。更令人瞩目的是，V-JEPA 2可以与大型语言模型对齐，结合视觉与文本多模态信息，在复杂的视频问答任务上展现出色表现。无论是对现实世界的感知测试，还是对事件时间线的推理，模型都能给出精准答案，证明其不仅能“看”视频，还能“理解”其中的因果与时序关系。预训练完成后，V-JEPA 2的能力还可以进一步延伸到机器人领域。只需少量（不足62小时）的机器人操作视频，无需任何标注或特定奖励信号，模型便能通过后续训练，学会在新环境中“零样本”操作机械臂。例如，机器人可以在实验室环境下，直接根据视觉目标进行物体抓取、搬运和摆放，而不需要针对新任务重新收集数据或微调模型。所有这些，都是建立在V-JEPA 2深厚的世界模型基础之上。 V-JEPA 2的核心创新在于其自监督联合嵌入预测架构。与传统需要大量交互或生成每一帧像素细节的方法不同，它聚焦于在高层次特征空间中学习世界的可预测结构。这样不仅大幅提升了模型的可扩展性，还让其对新场景、新任务具备极强的泛化和适应能力。通过大规模自监督学习与有限交互数据的结合，V-JEPA 2让AI能够从观察到的世界中自发总结规律、预测未来，并为实现目标自主规划路径。这为智能体在现实世界的感知、理解和自主操作开辟了全新可能，也为未来泛化能力更强、学习方式更接近人类的通用人工智能奠定了坚实基础。

0shared

V-JEPA 2：自我監督的影片模型有助於理解、預測和規劃

I'll take...