위험 민감한 정렬을 위한 보상 분산 정책 최적화(RVPO)

현재 비평가 없는 강화 학습 방법(RLHF)은 다목적 보상을 산술 평균으로 집계하는 방식으로 운영됩니다. 이 방식은 특정 목표에서의 높은 성과가 다른 목표에서의 중요한 실패를 수치적으로 상쇄할 수 있어, 안전성이나 형식과 같은 중요한 요소들이 간과될 위험이 있습니다. 이러한 문제를 해결하기 위해, 우리는 보상 분산 정책 최적화(Reward-Variance Policy Optimization, RVPO)라는 위험 민감한 프레임워크를 제안합니다. RVPO는 이점 집계 과정에서 보상 간의 분산을 처벌하여, 목표를 ‘합계를 극대화’하는 것에서 ‘일관성을 극대화’하는 것으로 전환합니다. 이를 통해 다목적 정렬의 신뢰성을 높일 수 있는 방법을 모색합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자