WINGS 소개: 멀티모달 대형 언어 모델에서 텍스트만 기반 잊힘 방지를 위한 듀얼-러너 아키텍처

멀티모달 대형 언어 모델(Multimodal LLMs)은 이미지와 텍스트와 같은 다양한 모달리티를 다룰 수 있어 더 상호작용적이고 직관적인 AI 시스템의 발전을 이끌고 있다. 멀티모달 LLMs(MLLMs)는 시각 자료를 해석하고 이미지에 관한 질문에 답변하며, 텍스트와 그림을 모두 포함한 대화에 참여할 수 있다. 그들의 능력은 텍스트와 이미지 모두를 포함한 입력을 이해하고 처리할 수 있다. WINGS(Wide Integration of Neural Graphs for Stabilizing)은 텍스트만을 기반으로 학습된 모델이 멀티모달 정보를 잊는 것을 방지하기 위한 듀얼-러너 아키텍처이다. WINGS는 각 모달리티의 정보를 따로 학습하되, 그것들을 통합하고 안정화시키는 방법으로 작동한다. 이 아키텍처는 텍스트만 기반으로 학습된 모델이 다른 모달리티의 정보를 효과적으로 활용할 수 있도록 도와준다. 이 논문은 멀티모달 대형 언어 모델에서 텍스트만을 기반으로 학습되었을 때의 정보 잊힘 문제를 다루고, 이를 해결하기 위한 새로운 아키텍처인 WINGS를 제시한다. WINGS는 모델이 다양한 모달리티의 정보를 효과적으로 유지하면서 학습할 수 있도록 돕는다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자