시그모이드 스케일링 곡선이 LLMs에 대한 강화 학습 RL 후 훈련을 예측 가능하게 만듦
강화 학습 RL 후 훈련은 이제 추론 중심 LLMs에 대한 주요 수단이지만, 사전 훈련과 달리 예측 가능한 스케일링 규칙이 없었습니다. 팀들은 더 많은 컴퓨팅 자원으로 레시피가 계속 개선될지 추정하는 원칙적인 방법 없이 수만 시간의 GPU를 들여다 놓습니다. Meta, UT Austin, UCL, Berkeley, Harvard 등의 연구진은 시그모이드 스케일링 곡선을 제안하여 이 문제를 해결했습니다. 이 연구결과는 LLMs에 대한 강화 학습 RL 후 훈련의 예측 가능성을 높였습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자