Prefix-RFT: 지도 미세 조정(SFT)과 강화 학습 미세 조정(RFT)을 결합하는 통합 기계 학습 프레임워크

발행일: 2025년 8월 23일 오후 8시 52분

대형 언어 모델은 일반적으로 사전 훈련 후 지도 미세 조정(SFT) 또는 강화 학습 미세 조정(RFT)을 사용하여 개선됩니다. 각각의 강점과 한계가 있는데, SFT는 예제 기반 학습을 통해 강의 따르기를 효과적으로 가르치지만, 엄격한 행동과 부족한 일반화로 이어질 수 있습니다. 반면 RFT는 보상 신호를 사용하여 모델을 작업 성공을 위해 최적화하지만, 환경의 분산된 보상은 훈련 동안 불안정성을 초래할 수 있습니다. 본 논문에서는 SFT 및 RFT의 이점을 결합한 Prefix-RFT 프레임워크를 제안합니다. Prefix-RFT는 사전 훈련된 모델을 미세 조정하는 동안 모델이 지시에 따라 신속하게 학습하고, 보상 신호를 사용하여 과적합을 방지하고 일반화 성능을 향상시킵니다. 실험 결과는 Prefix-RFT가 다양한 벤치마크에서 기존 방법보다 우수한 성능을 보인다는 것을 보여줍니다. 이 프레임워크는 다양한 자연어 처리 작업에 대해 유연하게 적용될 수 있습니다.

#AIPaperSummary #Applications #ArtificialIntelligence #TechNews #Technology

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자