V-JEPA 2: 자기 감독 비디오 모델은 이해, 예측 및 계획을 가능하게 합니다.

30 Jun 2025@Lara_Notes_Translated

Englishto

관찰만으로 세계를 이해하고 예측하며 계획하는 AI의 진화 현대 인공지능의 가장 흥미로운 도전 중 하나는 인간처럼 단순한 관찰을 통해 세계를 이해하고 미래를 예측하며, 새로운 상황에서 스스로 계획을 세울 수 있는 능력을 갖추는 것이다. 이 주제를 깊이 있게 다루고 있는 V-JEPA 2 연구는, 인터넷에서 수집한 방대한 비디오 데이터(100만 시간 이상)와 소량의 로봇 상호작용 데이터(62시간 미만)만으로 AI가 복잡한 물리적 세계를 학습할 수 있음을 보여준다. 핵심은 ‘자기 지도 학습(self-supervised learning)’이다. 이는 데이터에 별도의 라벨이나 보상 없이 AI가 직접 패턴을 찾아내고 구조를 이해하도록 하는 접근법이다. V-JEPA 2는 마치 인간이 현실을 파악하듯, 수많은 영상 속에서 움직임과 변화의 법칙을 학습한다. 예를 들어, 공이 던져졌을 때 어디로 날아갈지, 손이 어떤 물체를 잡으려 하는지 등, 미래의 상태를 예측하는 능력이 자연스럽게 길러진다. 이 모델의 구조적 특징은 ‘공동 임베딩 예측 아키텍처’에 있다. 영상의 일부를 가리고(마스킹), 남은 정보를 바탕으로 가려진 부분의 특징을 정확히 추정한다. 이 과정을 반복해, AI는 필연적인 움직임이나 변화(예를 들어, 사람이 문을 열면 방이 보인다)를 중심으로 세상을 인식한다. 불확실하고 예측 불가한 세부 디테일(예를 들어, 나뭇잎 한 장의 위치 변화)은 무시한다는 점이 기존의 영상 생성형 AI와 다른 점이다. 이렇게 훈련된 V-JEPA 2는 움직임 이해, 객체 인식, 행동 예측 등 다양한 테스트에서 최고의 성능을 보였다. 특히 영상 속에서 앞으로 어떤 일이 벌어질지 예측하거나, 영상 기반의 질문에 대답하는 능력이 크게 향상됐다. 예를 들어, 요리하는 손동작을 보고 다음 행동을 미리 맞히거나, 영상에서 ‘이 장면 다음에 무엇이 일어나겠는가?’와 같은 질문에 정답을 내놓는다. 더 놀라운 점은, 이 비디오 모델을 소량의 로봇 데이터로 확장했을 때 나타난다. 이미 학습된 영상 인식 능력을 바탕으로, 실제 로봇 팔에 적용해 보니, 전혀 본 적 없는 환경이나 물체에서도 물건을 집고 옮기는 등 손재주를 발휘할 수 있었다. 별도의 추가 데이터 수집이나 보상 설계, 환경별 맞춤 훈련 없이도 ‘이미지로 목표 상태만 주어지면’ 로봇이 스스로 계획을 세워 새로운 작업을 수행한다. 이 연구가 의미하는 바는 크다. 인간이 오감을 통해 세상을 배우듯이, AI 역시 대규모의 관찰만으로 세상의 물리적 원리와 변화의 패턴을 스스로 터득할 수 있음을 보여준다. 자기 지도형 비디오 학습이 언어, 시각 인식, 행동 예측, 그리고 실제 로봇의 계획과 제어까지 아우르는 범용적 능력으로 확장될 수 있다는 점에서, 창작, 연기, 로봇 연출 등 다양한 장르의 배우들에게도 새로운 영감을 준다. AI가 어떻게 ‘관찰에서 이해로, 이해에서 행동으로’ 발전하는지, 이 흐름을 따라가면 인간 연기의 본질과 기계적 창의성의 경계까지도 다시 생각해볼 수 있을 것이다.

0shared

V-JEPA 2: 자기 감독 비디오 모델은 이해, 예측 및 계획을 가능하게 합니다.

I'll take...