비디오 언어 모델 평가: NarrativeTrack

다중 모달 대형 언어 모델(MLLMs)은 시각-언어 추론에서 놀라운 진전을 이루었지만, 비디오에서 시간적으로 전개되는 이야기를 이해하는 능력은 아직 탐구되지 않았다. 진정한 이야기 이해는 누가 언제 어디서 무엇을 하는지를 근거로 하며, 동적 시각적 및 시간적 맥락을 통해 일관된 엔티티 표현을 유지하는 것을 요구한다. NarrativeTrack은 MLLMs에서 이야기 이해를 세밀한 엔티티 중심 추론을 통해 평가하는 첫 번째 벤치마크로, 짧은 클립이나 대략적인 장면 수준 의미에 제한된 기존 벤치마크와는 달리…
출처: Apple
요약번역: 미주투데이 서현진 기자