Rubrics as Rewards (RaR): 구조화된 다중 기준 평가 신호로 언어 모델을 교육하기 위한 강화 학습 프레임워크

발행일: 2025년 7월 30일 오전 12시 12분

강화 학습을 통한 검증 가능 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 명확하고 검증 가능한 결과를 갖는 과제에 대해 복잡한 추론을 수행하도록 LLMs에게 허용하며, 수학 및 코딩에서 강한 성능을 발휘한다. 그러나 많은 현실 세계 시나리오에서는 이러한 명시적인 검증 가능한 답변이 부족하며, 직접적인 보상 신호 없이 모델을 교육하는 것은 도전이다. 현재의 방법은 선호도 순위를 통해 이 갭을 다루는 RLHF를 통해 이를 해결한다. Rubrics as Rewards (RaR)는 이러한 문제를 해결하기 위한 새로운 강화 학습 프레임워크로서, 구조화된 다중 기준 평가 신호를 활용한다. RaR은 명확한 보상 신호 없이도 언어 모델을 효과적으로 교육할 수 있는 잠재력을 제시한다.

#AIPaperSummary #ArtificialIntelligence #EditorsPick #Machinelearning #TechNews #Technology

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자