데이터셋, 문서 및 반복: 불균형 데이터 품질의 실제

발행일: 2025년 9월 22일 오전 12시 00분

데이터 필터링은 모델 성능을 향상시키고 계산 비용을 줄이는 데 강력한 도구로 작용한다. 하지만 대규모 언어 모델의 계산 예산이 계속 증가함에 따라 심각하게 필터링된 데이터셋에서 제공되는 제한된 데이터 양이 실제 제약 요인이 될 것으로 예상된다. 이에 대한 더 나은 이해를 위해, 우리는 데이터 필터링과 중복 제거를 통해 생성된 다양한 사전 훈련 데이터셋에서 모델 성능을 연구한다. 적절한 훈련 레시피 수정을 고려할 때, 기존에 강력하게 필터링된 것을 반복할 때 모델 성능이 어떻게 변하는지 및 다양한 계산 예산에서 모델 성능을 연구한다. 이 연구에서는 데이터 필터링과 중복 제거의 결과로 생성된 데이터셋이 어떻게 모델 성능에 영향을 미치는지에 대해 조사하고 있다. 또한, 더 많은 계산 예산에서 모델 성능이 어떻게 변하는지 확인하고 있다. 이러한 연구 결과는 모델 성능을 최적화하고 더 나은 데이터 활용 방법을 모색하는 데 도움이 될 것으로 기대된다.

출처: Apple

요약번역: 미주투데이 서현진 기자