JEPA 재고: 동결된 선생님과 함께 하는 계산 효율적 비디오 SSL

비디오 공동 임베딩 예측 아키텍처(V-JEPA)는 지수 이동 평균(EMA)으로 업데이트된 선생님을 사용하여 잠재 공간에서 마스킹된 영역을 예측함으로써 범용적인 비디오 표현을 학습한다. EMA는 표현 붕괴를 방지하지만 확장 가능한 모델 선택을 복잡하게 하며 선생님과 학생 아키텍처를 결합시킨다. 우리는 마스킹된 잠재 예측을 재방문하고 동결된 선생님만으로 충분하다는 것을 보여준다. 구체적으로, 우리는 (i) V-JEPA 마스킹 아래 간단한 픽셀 재구성 목표로 대상 인코더를 훈련하고, 그 다음 (ii) 이를 동결시키고 학생이 선생님의 예측을 수행하도록 훈련시킨다.
출처: Apple
요약번역: 미주투데이 서현진 기자