골디락스 RL: 희소 보상을 극복하기 위한 과제 난이도 조정

강화 학습은 대형 언어 모델의 추론 능력을 개발하는 데 있어 강력한 방법으로 주목받고 있다. 하지만 희소 보상에 의존하게 되면 모델이 최소한의 피드백으로 방대한 탐색 공간을 탐색해야 하므로 샘플 효율성이 떨어지는 문제가 발생한다. 전통적인 커리큘럼 학습은 데이터의 복잡성에 따라 순서를 매김으로써 이 문제를 완화하려고 하지만, 특정 모델에 적합한 순서를 정하는 것은 종종 불분명하다. 이러한 문제를 해결하기 위해 연구팀은 골디락스라는 새로운 교사 주도 데이터 샘플링 전략을 제안하였다. 이 전략은 각 질문의 난이도를 예측하여 학생 모델이 보다 효과적으로 학습할 수 있도록 돕는다.
출처: Apple
요약번역: 미주투데이 서현진 기자