최적 데이터 혼합을 위한 스케일링 법칙

대규모 기초 모델은 일반적으로 여러 도메인의 데이터를 사용하여 학습됩니다. 데이터 혼합은 각 도메인의 비율이 모델의 성능에 중요한 역할을 합니다. 그러나 이러한 데이터 혼합을 선택하는 표준적인 방법은 시행착오에 의존하며, 대규모 사전 학습에는 비실용적입니다. 우리는 스케일링 법칙을 사용하여 어떤 대상 도메인에 대한 최적 데이터 혼합을 결정하기 위한 체계적인 방법을 제안합니다. 이 방법은 모델의 크기 N, D 토큰으로 학습된 모델의 손실 및 특정 도메인 가중치 벡터 h를 정확하게 예측합니다. 이러한 스케일링 법칙의 보편성을 확인하기 위해 실험을 통해 검증합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자