2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
GPT-4o는 텍스트를 이해하지만 명확하게 보일까요? 시각 작업에 대한 MFMs의 벤치마킹 연구
발행일: 2025년 7월 24일 오전 2시 07분

다중 모달 기반 모델(MFMs)인 GPT-4o, Gemini, Claude 등은 최근 공개 데모에서 빠른 발전을 보여주고 있습니다. 그러나 이러한 모델들의 시각 정보를 이해하는 능력은 여전히 명확하지 않습니다. 현재 사용되는 대부분의 벤치마크는 VQA나 분류와 같은 텍스트 중심 작업에 주로 초점을 맞추고 있어 언어적 강점을 더 잘 반영하고 있습니다. 이러한 한계로 MFMs의 시각 작업 성능을 정확하게 판별하는 것은 여전히 어려운 문제로 남아 있습니다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자