Dynamic Fine-Tuning (DFT): 지도된 미세 조정(SFT)의 일반화 간격을 줄이는 방법
지도된 미세 조정(SFT)은 전문가 데이터셋에서 모델을 훈련시켜 새로운 작업에 적응시키는 표준 기술이다. 이 기술은 간단함과 신속한 전문가와 유사한 행동 개발 능력으로 인해 가치가 있다. 그러나 강화 학습(RL)과 비교했을 때 종종 일반화에서 성능이 저하된다. RL은 모델이 다양한 전략을 탐색할 수 있게 하여 더 강한 일반화로 이어진다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자