안전 이미지 특징을 분리하는 SafetyPairs 연구

SafetyPairs라는 연구가 ICLR 2026의 ‘신뢰할 수 있는 AI를 위한 원칙적 설계’ 워크숍에서 발표되었습니다. 이 연구는 특정 이미지가 왜 안전하지 않은지를 분석하는 데 중점을 두고 있습니다. 이미지의 미세한 변화, 예를 들어 모욕적인 제스처나 상징이 포함될 경우, 그 안전성에 미치는 영향이 크게 달라질 수 있습니다. 그러나 기존의 이미지 안전성 데이터셋은 대체로 모호하고, 안전성에 대한 광범위한 레이블만 제공하여 이러한 차이를 유발하는 특정 특징을 분리하는 데 한계가 있습니다. SafetyPairs는 이러한 문제를 해결하기 위한 새로운 접근 방식을 제안하고 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자