텍스트로 안내된 이미지 편집을 위한 미래지향적인 평가를 향하여

텍스트로 이미지를 편집하는 것은 최근 자연어 처리와 컴퓨터 비전 분야에서 주목을 받고 있는 연구 주제 중 하나이다. 그러나 이러한 모델의 성능을 평가하는 것은 여전히 도전적인 과제로 남아 있다. 기존의 평가 방법은 이미지와 텍스트 간의 유사성을 측정하는 CLIP와 같은 메트릭스에 의존하는 경우가 많은데, 이러한 방식은 모델의 성능을 정확하게 평가하기 어렵게 만든다. 이러한 문제점을 해결하기 위해 이 연구에서는 텍스트로 안내된 이미지 편집 모델을 더 근거 있는 방식으로 평가하기 위한 새로운 벤치마크인 GIE-Bench를 제안한다. 이 벤치마크는 두 가지 중요한 차원인 기능적 정확성과 효과적인 사용자 상호작용을 토대로 모델의 성능을 평가한다. 특히 의도한 변경이 성공적으로 이루어졌는지를 검증하는 자동 생성된 객관식 문제를 통해 기능적 정확성을 평가한다. 이러한 노력은 텍스트로 안내된 이미지 편집 모델을 보다 정확하게 평가하고 발전시키는 데 기여할 것으로 기대된다. 이러한 근거 있는 접근 방식은 향후 자연어 처리 및 컴퓨터 비전 분야에서의 이미지 편집 모델의 발전에 도움이 될 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자