효율적인 운동 생성 위한 장기 운동 임베딩 학습

운동을 이해하고 예측하는 것은 시각적 지능의 중요한 요소입니다. 현대 비디오 모델은 장면의 역학을 잘 이해하지만, 전체 비디오 합성을 통해 여러 가능한 미래를 탐색하는 것은 매우 비효율적입니다. 이에 본 연구에서는 트래커 모델에서 얻은 대규모 궤적을 통해 학습된 장기 운동 임베딩을 직접 활용하여 장면 역학을 수십 배 더 효율적으로 모델링합니다. 이를 통해 텍스트 프롬프트나 공간적 조작을 통해 지정된 목표를 충족하는 긴 현실적인 운동을 효율적으로 생성할 수 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자