다모달 대형 언어 모델을 활용한 자아중심 비디오 질문 응답 발전

발행일: 2025년 6월 30일 오전 12시 00분

자아중심 비디오 질문 응답(QA)은 모델이 긴 시간 범위의 시간적 추론, 일인칭 시점, 자주 발생하는 카메라 움직임과 같은 특수한 도전 과제를 처리해야 하는 작업이다. 본 논문은 소유 및 오픈 소스 다모달 대형 언어 모델(MLLMs)을 QaEgo4D에서 파생된 자아중심 비디오를 향상시킨 QaEgo4Dv2 데이터셋에서 체계적으로 평가한다. GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B 및 Qwen2-VL-7B-Instruct와 같은 네 가지 인기 MLLM을 오픈QA 및 CloseQA 설정에 대해 제로샷 및 파인튜닝 접근법을 사용하여 평가한다. 주석 노이즈를 줄이기 위해 QaEgo4Dv2를 소개한다. 이 연구는 자아중심 비디오 QA에 MLLMs가 어떻게 적용되는지에 대한 평가를 통해 이 분야의 발전에 도움이 될 것으로 기대된다.

#머신러닝

출처: Apple

요약번역: 미주투데이 서현진 기자