텍스트 조건부 JEPA로 의미론적으로 풍부한 시각 표현 학습하기

이미지 기반의 공동 임베딩 예측 아키텍처(I-JEPA)는 마스킹된 특징 예측을 통해 시각적 자기 지도 학습을 가능하게 하는 유망한 방법입니다. 그러나 마스킹된 위치에서의 시각적 불확실성으로 인해 특징 예측은 여전히 도전적이며, 의미론적 표현을 학습하는 데 실패할 수 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 텍스트 조건부 JEPA(TC-JEPA)를 제안합니다. TC-JEPA는 이미지 캡션을 활용하여 예측의 불확실성을 줄이는 방법입니다. 구체적으로, 입력 텍스트 토큰에 대한 희소한 교차 주의(attention)를 계산하는 세밀한 텍스트 조정기를 사용하여 예측된 패치 특징을 조정합니다. 이를 통해 예측의 정확성을 높이고, 의미론적으로 풍부한 시각 표현을 학습할 수 있는 가능성을 제시합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자