픽셀 수준 대체로 어휘 제약 극복하기

서브워드 토큰화는 계산 효율성과 어휘 커버리지 사이의 균형을 유지해야 하는데, 이로 인해 훈련 중에 우선순위를 두지 않은 언어 및 스크립트에 대한 성능이 부적절할 수 있습니다. 저희는 미리 훈련된 언어 모델에 어휘 없는 인코더를 추가하는 것을 제안하여, 텍스트를 픽셀로 렌더링하여 입력 임베딩을 생성합니다. 영어 중심 언어 모델 실험을 통해, 저희 방법이 기존의 토크나이저 기반 방법을 능가하여 기계 번역 성능을 크게 향상시키고 효과적인 다국어 전이를 용이하게 한다는 것을 입증합니다. 더욱이, 우리는…
출처: Apple
요약번역: 미주투데이 서현진 기자