개인화된 그룹 상대 정책 최적화로 이질적인 선호 조정

대형 언어 모델(LLM)은 일반적인 능력이 뛰어나지만, 다양한 개인의 선호를 조정하는 데 어려움을 겪고 있습니다. 이는 표준 후속 훈련 방법인 인간 피드백을 통한 강화 학습(RLHF)이 단일 글로벌 목표에 최적화되기 때문입니다. 연구자들은 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)라는 새로운 접근 방식을 제안하고 있습니다. GRPO는 널리 사용되는 온-정책 강화 학습 프레임워크로, 그룹 기반 정규화를 통해 개인화된 설정에서도 효과적으로 작동할 수 있도록 설계되었습니다. 그러나 기존의 그룹 기반 정규화는 모든 샘플이 교환 가능하다는 가정을 내포하고 있어, 개인의 보상 분포를 혼동할 수 있는 한계가 있습니다. 이러한 연구는 LLM이 다양한 사용자 선호에 맞춰 최적화될 수 있는 가능성을 제시합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자