학습을 행동 추상화로 이유화하는 방법과 확장 가능한 중간 훈련 RL

발행일: 2026년 1월 27일 오전 12시 00분

대형 언어 모델은 강화 학습(RL)에서 뛰어나지만, 이 잠재력을 완전히 발휘하려면 중간 훈련 단계가 필요하다. 효과적인 중간 훈련 단계는 유용한 행동들의 압축된 집합을 식별하고 온라인 RL을 통해 이들 중 빠르게 선택할 수 있어야 한다. 이 논문은 중간 훈련이 후속 훈련을 어떻게 형성하는지에 대한 최초의 이론적 결과를 제시한다. 이는 가지치기로 인한 가치 근사 오차와 이후 계획 중 발생하는 RL 오차를 모두 최소화하는 행동 부분 공간을 특성화한다. 우리의 분석은 중간 훈련의 효과성의 두 가지 주요 결정 요인을 밝혀냈다.

출처: Apple

요약번역: 미주투데이 서현진 기자