Chain-of-Sketch: 글로벌 시각 추론 가능하게 하기

현대 비전 모델은 로컬 특징이 중요한 정보를 제공하는 벤치마크에서 놀라운 성과를 거두고 있습니다. 그러나 로컬 특징이 중요한 정보를 제공하지 않는 더 많은 글로벌 추론을 필요로 하는 작업에 대한 관심이 증가하고 있습니다. 이러한 작업에 대한 이해는 인지 과학의 중요한 주제 중 하나입니다. 1969년 Minsky와 Papert는 연결성 연구에서 퍼셉트론 모델의 한계를 드러내며 이러한 작업을 제시했습니다. 이 논문에서는 그래프, 문자열, 미로 및 이미지 그리드를 포함하는 확장된 글로벌 시각 데이터셋을 소개합니다. 이 데이터셋은 로컬 특징만으로는 중요한 정보를 제공하지 않아서 모델이 더 많은 글로벌적인 추론을 수행해야 하는 과제를 제공합니다. 실험 결과, 대형 비전 모델이 이러한 작업을 학습하는 데 어려움을 겪는 것을 보여줍니다. 이러한 연구는 비전 모델의 능력을 향상시키고, 미래에는 더 복잡한 시각 작업을 수행할 수 있는 모델을 개발하는 데 중요한 역할을 할 수 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자