V-JEPA 2：自主监控的视频模型有助于理解、预测和规划

30 Jun 2025@Lara_Notes_Translated

Englishto

视频世界的自我觉醒：V-JEPA 2如何推动理解、预测与规划的革新想象一种人工智能，它无需明确动作标签，仅靠观看海量视频就能像人类一样理解世界、预测未来并自主规划行动。V-JEPA 2正是这样一种突破性的自监督视频模型，通过对超过一百万小时互联网视频的学习，实现了对物理世界深层次的洞察和操作能力。 V-JEPA 2的训练过程分为两个阶段。第一阶段，它在没有任何动作信息的情况下，通过“视觉掩码去噪”机制对视频进行大规模自我监督预训练。模型会有选择性地遮挡视频片段，并尝试在抽象的特征空间中还原被遮挡部分。这种方式让模型不仅关注于物体的表观信息，更能抽取出运动轨迹、因果关系等核心动态特征，从而建立起对真实世界变化的内在理解。这种方法的威力在于可扩展性：V-JEPA 2不依赖稀缺的人工动作标注，而是充分利用了互联网上丰富的视频资源。其在动作识别、物体识别和动作预判等任务上的表现远超以往专门为这些任务设计的模型。在Epic-Kitchens-100等复杂数据集上，V-JEPA 2对人类动作的预测准确率提升达44%。更令人惊喜的是，将其与大型语言模型结合后，V-JEPA 2在多项视频问答基准上也创下了新纪录，展现出强大的多模态推理和时间理解能力。在第二阶段，V-JEPA 2被用于机器人规划。研究者只用62小时的无标注机器人操作视频，对模型进行了后续训练，使其成为具备动作条件推理能力的V-JEPA 2-AC。令人瞩目的是，这一模型无需针对新环境或新任务进行任何专项训练，也不需额外收集数据，就可以直接部署在不同实验室的机械臂上完成抓取、搬运等实际操作任务。只要给定目标图片，机械臂就能自主规划动作路径，实现对陌生物体和环境的零样本操控。 V-JEPA 2的核心创新还在于它不依赖于像素级别的生成，而是在更抽象的表达空间中进行预测。这让模型关注于那些可预测、与任务紧密相关的特征，规避了生成式方法常见的无关细节干扰。通过这种方式，V-JEPA 2不仅大幅降低了模型推理和规划的计算成本，还为实现更通用、更高效的人工智能世界模型铺平了道路。这项研究的意义不仅仅在于提升了视频理解和机器人控制的技术标准，更重要的是展示了自我监督学习如何成为智能体通向自主理解、灵活预测和高效规划的关键跳板。未来，随着V-JEPA 2类模型的不断进化，AI有望如同人类一般，仅通过观察和有限互动，便能在开放世界中自如行动、创新求解。

0shared

V-JEPA 2：自主监控的视频模型有助于理解、预测和规划

I'll take...