HTML에서 텍스트 추출을 재고하다: LLM 사전 훈련을 위한

웹 규모의 LLM 사전 훈련 데이터셋을 구축하는 데 필요한 최초의 전처리 단계 중 하나는 HTML에서 텍스트를 추출하는 것입니다. 인터넷 콘텐츠의 엄청난 다양성에도 불구하고, 기존의 오픈 소스 데이터셋은 대부분 모든 웹페이지에 동일한 고정 추출기를 적용합니다. 본 연구에서는 이러한 관행이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 여부를 조사합니다. 먼저, 서로 다른 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보여줄 수 있지만, 고정 필터링 파이프라인을 거쳐 남아 있는 페이지는 크게 다를 수 있다는 것을 보여줍니다. 이는 단순한 사실을 시사합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자