2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
데이터 품질 유령: LLM 사전학습을 위한 분류기 기반 품질 필터링 재고
발행일: 2026년 1월 16일 오전 12시 00분

대규모 모델은 대규모 웹-크롤링 데이터셋에서 사전학습되는데, 이 데이터셋에는 다양한 품질의 문서가 포함되어 있어 데이터 필터링이 필수적이다. 분류기 기반 품질 필터링(CQF)는 이 문제를 해결하기 위한 인기 있는 방법 중 하나이다. CQF는 사전학습 데이터와 소규모 고품질 세트를 구분하는 이진 분류기를 훈련시킴으로써 작동한다. 각 사전학습 문서에는 분류기의 점수로 정의된 품질 점수가 할당되며, 상위 점수만 유지된다. 이 연구는 CQF에 대한 심층 분석을 제공하며, CQF가 하류 작업 성능을 향상시키지만 고품질 언어 모델링을 반드시 향상시키지는 않는다는 것을 보여준다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자