시각 인코딩을 활용한 시각-언어 모델의 벤치마킹, EncQA

시각-언어 모델(VLMs)은 차트 이해 벤치마크에서 점점 더 높은 점수를 얻고 있지만, 이러한 진전이 차트 해석에 필수적인 시각적 추론 능력의 폭을 완전히 포착하지 못하는 것으로 나타났다. 이에 시각화 문헌에 근거하여 설계된 EncQA는 시각 인코딩과 분석 작업에 대한 시스템적인 다룸을 제공하기 위한 새로운 벤치마크로 등장했다. EncQA는 2,076개의 합성 질문-답변 쌍을 제공하여 위치, 길이, 면적, 색상 등 여섯 가지 시각 인코딩 채널에 균형 있는 다룸을 가능하게 한다. 차트 이해에 있어서 중요한 시각적 요소들을 포괄적으로 다루며, 모델의 시각적 추론 능력을 평가하는 데 유용한 도구로 활용될 것으로 기대된다.
출처: Apple
요약번역: 미주투데이 서현진 기자