데이터 품질이 이중 언어 모델 학습에 미치는 역할 평가

발행일: 2025년 12월 11일 오전 12시 00분

다국어 및 이중 언어 모델은 자연어 처리(NLP) 시스템을 다양한 언어와 사용자에 걸쳐 확장하는 유망한 길을 제시한다. 그러나 언어에 따라 이들의 성능이 크게 다르다는 점이 도전 요소로 작용한다. 이전 연구에서는 몇몇 언어(예: 영어)의 성능을 저하시키는 반면, 다른 언어(일반적으로 더 많은 데이터 제약이 있는 언어들)의 성능을 향상시키는 것으로 나타났다. 본 연구에서는 이러한 일관성의 원인을 조사하기 위해 두 언어 모델인 이중 언어 모델과 단일 언어 모델을 비교했다. 이를 통해 성능의 변화에 대한 중요한 원인은 데이터 양뿐만 아니라 데이터 품질의 불평등에 있다는 것을 밝혀내었다. 특히, 데이터 품질이 낮은 언어는 이중 언어 모델에서 성능이 더욱 저하되는 경향이 있다고 한다. 따라서 다국어 및 이중 언어 모델을 개발하고 향상시킬 때 데이터 품질을 고려하는 것이 매우 중요하다. 데이터 양뿐만 아니라 데이터 품질에 대한 균형 잡힌 접근 방식이 모델의 성능을 향상시키는 데 결정적인 역할을 할 수 있다. 이는 보다 효율적이고 일관된 다국어 언어 모델 개발을 위한 중요한 지침을 제시할 수 있다.

출처: Apple

요약번역: 미주투데이 서현진 기자