2026년 4월 23일 목요일
오늘의 신문
2026년 4월 23일 목요일 오늘의 신문
MLLM 사전을 활용한 MLLM 우선순위에 따른 교차 모달 표현 안내
발행일: 2025년 9월 22일 오전 12시 00분

콘텐츠를 모달리티 간에 검색하는 능력을 갖춘 Contrastive Language-Image Pretraining (CLIP)에도 불구하고, 여전히 특징 공간에 상당한 모달 갭이 존재합니다. 우리는 일반 MLLM (Multimodal Large Language Models)이 강력한 내재 모달리티 정렬 특성을 보여준다는 것을 발견했습니다. 최근의 MLLM 기반 리트리버는 통합된 아키텍처를 가지고 있지만, 미세 모달리티 정렬 메커니즘에 의존하는 한 그들의 잠재력을 근본적으로 제한합니다. 이 연구에서 우리는 임베딩을 위한 모달리티-정렬 우선 학습인 MAPLE(모달리티-정렬 우선 학습을 위한 선호도 학습)을 소개합니다. MAPLE은 MLLM 사전을 활용하여 파생된 모달리티 표현을 정렬하는 방법을 제시합니다. MAPLE은 MLLM 사전을 활용하여 파생된 모달리티 표현을 정렬하는 방법을 제시합니다. MAPLE은 MLLM과 이미지 임베딩 사이의 모달리티 간 교차 부정적 페어를 통합하여 우선적으로 모달리티 표현을 정렬합니다. 이를 통해 MAPLE은 효과적으로 모달리티 간의 갭을 줄이고 모달리티 간 상호 작용을 강화합니다. 또한 우리는 MAPLE이 MLLM과 이미지 임베딩 간의 모달리티 정렬을 향상시키는 방법을 설명합니다. 이를 통해 MAPLE은 MLLM과 이미지 임베딩 간의 모달리티 간 상호작용을 강화합니다. 이를 통해 MAPLE은 모달리티 간의 간격을 효과적으로 줄이고 모달리티 간 상호작용을 강화합니다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자