대규모 이미지 편집을 위한 Pico-Banana-400K 데이터셋

최근 다중 모달 모델의 발전으로 GPT-4o와 Nano-Banana와 같은 시스템들은 새로운 기준을 세우며 텍스트로 이끌어지는 이미지 편집 능력을 보여주고 있다. 그러나 연구 커뮤니티의 발전은 실제 이미지에서 구축된 대규모, 고품질 및 공개적으로 접근 가능한 데이터셋의 부재로 제한을 받고 있다. 이에 우리는 Pico-Banana-400K를 소개한다. 이 데이터셋은 Nano-Banana를 활용하여 OpenImages 컬렉션의 실제 사진에서 다양한 편집 쌍을 생성함으로써 구축되었다. 이 데이터셋은 텍스트로 이끌어지는 이미지 편집에 대한 지침을 기반으로 만들어진 400,000장의 이미지로 구성되어 있으며, 다양한 수정 쌍을 포함하고 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자