부분 전문가 데모를 통한 추론을 위한 강화 학습

강화 학습(Reinforcement Learning, 이하 RL)은 일반적으로 희소 보상 문제와 조합적으로 큰 출력 공간으로 인해 복잡한 시퀀스 생성 작업을 다루는 데 어려움을 겪는다. 반면에 감독된 미세 조정(Supervised Fine-Tuning, 이하 SFT)은 밀도 높은 지식(ground-truth) 라벨에 의존하며, 시퀀스 길이가 늘어날수록 비용이 증가한다. 이 두 가지 방법의 한계를 극복하기 위해 이 연구는 Adaptive Backtracking(AdaBack)이라는 알고리즘을 제안한다. AdaBack은 훈련 중에 각 샘플에 대해 일부 목표 출력 접두사만을 공개함으로써 각 단계에서 이전 단계로 “커브 백”하는 방식으로 시퀀스 생성 작업을 강화한다. 이를 통해 RL의 희소 보상 문제와 SFT의 라벨 비용 증가 문제를 동시에 해결할 수 있다. 실험 결과는 AdaBack이 다양한 시퀀스 생성 작업에서 효과적임을 입증하며, RL과 SFT의 장점을 결합하는 새로운 방향을 제시한다.
출처: Apple
요약번역: 미주투데이 서현진 기자