NVIDIA, GRPO 훈련을 위한 새로운 롤아웃 프레임워크 ‘Polar’ 발표

NVIDIA 연구팀이 언어 에이전트를 훈련하기 위한 새로운 롤아웃 프레임워크인 ‘Polar’를 발표했습니다. Polar는 에이전트 하네스를 수정하지 않고도 강화 학습을 통해 언어 모델을 훈련할 수 있도록 돕는 시스템입니다. 이 프레임워크는 모델 API 프록시를 하네스와 추론 서버 사이에 배치하여 토큰 수준의 상호작용을 캡처하고, 훈련 준비가 완료된 궤적을 재구성합니다. Polar는 Qwen3.5-4B 기본 모델에서 GRPO를 사용하여 Codex 하네스 아래에서 SWE-Bench Verified pass@1을 22.6 포인트, Claude Code 아래에서 4.8 포인트, Pi 아래에서 6.2 포인트 개선했습니다. 이 프레임워크는 NeMo Gym 환경으로 등록되었으며 ProRL Agent Server 저장소에서 공개되었습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자