2026년 4월 23일 목요일
오늘의 신문
2026년 4월 23일 목요일 오늘의 신문
RubiCap: 밀집 이미지 캡셔닝을 위한 루브릭 기반 강화 학습
발행일: 2026년 3월 16일 오전 12시 00분

밀집 이미지 캡셔닝은 비전-언어 사전 학습과 텍스트-이미지 생성에서 필수적인 요소입니다. 그러나 전문가 수준의 주석을 대량으로 생성하는 것은 비용이 매우 높아 실용적이지 않습니다. 강력한 비전-언어 모델(VLM)을 통한 합성 캡셔닝은 대안이 될 수 있지만, 감독된 증류 방식은 출력의 다양성이 제한적이고 일반화 능력이 약하다는 단점이 있습니다. 이러한 한계를 극복하기 위해 강화 학습(RL)이 활용될 수 있지만, 지금까지의 성공 사례는 주로 결정론적 검증 도구에 의존하는 검증 가능한 도메인에 집중되어 있었습니다. 이는 개방형 캡셔닝에서는 적용하기 어려운 점입니다. RubiCap은 이러한 문제를 해결하기 위한 새로운 접근법을 제시하며, 밀집 이미지 캡셔닝의 효율성을 높이는 데 기여할 것으로 기대됩니다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자