
다국어 및 이중 언어 모델은 NLP 시스템을 다양한 언어와 사용자에 걸쳐 확장하는 유망한 길을 제시한다. 그러나 이들의 성능은 종종 언어에 따라 크게 다르며, 이전 연구에서 몇몇 언어의 성능을 저하시키는 반면(예: 영어), 다른 언어(일반적으로 더 많은 데이터 제약이 있는 언어들)를 향상시키는 것으로 나타났다. 본 연구에서는 두 언어 모델을 비교하여 이러한 일관성의 원인을 조사했는데, 이를 통해 데이터 품질의 불평등이 성능의 주요 원인임을 밝혀냈다.


