메타 CLIP 2: 전 세계 이미지-텍스트 쌍으로부터 처음으로 훈련된 대조적 언어-이미지 사전 훈련 (CLIP)
대조적 언어-이미지 사전 훈련(CLIP)은 현대 비전 및 멀티모달 모델에서 중요한 역할을 하며, 제로샷 이미지 분류와 MLLM의 비전 인코더로 사용되고 있습니다. 그러나 메타 CLIP를 포함한 대부분의 CLIP 변형은 영어 데이터에만 국한되어 있어 전 세계 웹의 다양한 언어 콘텐츠를 무시한다. 이로 인해 비영어 사용자들에 대한 성능이 저하될 수 있습니다. 이 문제를 해결하기 위해, Meta CLIP 2가 소개되었습니다. 이는 처음으로 전 세계 이미지-텍스트 쌍에서 훈련된 대조적 언어-이미지 사전 훈련 모델로, 영어 이외의 언어에 대한 데이터도 적극적으로 활용합니다. 이를 통해 다국어 환경에서의 CLIP 성능이 향상되고, 더 많은 사용자들에게 혜택을 줄 수 있게 되었습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자