GRACE: 해석 가능한 역강화 학습을 위한 언어 모델 프레임워크

발행일: 2025년 12월 11일 오전 12시 00분

역강화 학습(Inverse Reinforcement Learning)은 전문가의 데모로부터 보상 모델을 복원하는 것을 목표로 하지만, 기존 방법은 해석하고 디버깅하기 어려운 “블랙박스” 모델을 생성한다. 본 연구에서는 전문가 궤적으로부터 직접 해석 가능한 코드 기반 보상 함수를 역공학하기 위해 대규모 언어 모델을 진화적 탐색 내에서 활용하는 GRACE(Generating Rewards As CodE)를 소개한다. 결과적으로 얻어지는 보상 함수는 검토하고 확인할 수 있는 실행 가능한 코드이다. GRACE를 BabyAI와 AndroidWorld 벤치마크에서 실험적으로 검증하여 효율적으로 학습하는 것을 입증했다.

#인공지능

출처: Apple

요약번역: 미주투데이 서현진 기자