대조적 지역화 언어-이미지 사전 훈련

대조적 언어-이미지 사전훈련(CLIP)은 비전 인코더를 학습시키는 인기 있는 방법으로, 이미지/텍스트 표현을 생성하여 다양한 응용 프로그램을 용이하게 합니다. 최근에 CLIP는 다중 모달 대형 언어 모델(MLLMs)의 비전 백본으로 널리 채택되어 이미지 입력을 언어 상호작용에 연결시킵니다. CLIP의 성공은 이미지 수준에서 웹 크롤링된 노이즈 텍스트 주석을 정렬하는 데 의존하지만, 이러한 기준은 특히 세부 비전 표현이 필요한 하위 작업에 대해 충분하지 않을 수 있습니다. 이에 대한 대안으로, 저자들은 언어-이미지 상호작용을 강화하기 위해 대조적 지역화 미세 조정을 제안합니다. 지역화된 이미지 패치를 사용하여 언어-이미지 상호작용을 향상시키는 방법을 제시하며, 이는 세밀한 비전 표현이 필요한 하위 작업에 유용할 것으로 기대됩니다.
출처: Apple
요약번역: 미주투데이 서현진 기자