텍스트 음성 변환을 위한 Few-Shot LLM 기반 텍스트 정규화 기술, PolyNorm

텍스트 정규화 (TN)는 텍스트 음성 변환 (TTS) 시스템에서 핵심 전처리 단계로, 쓰여진 형태를 그들의 고전적인 발화적 상당물로 변환한다. 기존의 TN 시스템은 높은 정확도를 보일 수 있지만, 상당한 공학 노력이 필요하고, 확장하기 어렵며, 특히 저자원 환경에서 언어적 커버리지에 도전을 제시할 수 있다. PolyNorm은 수동으로 제작된 규칙에 의존하지 않고 넓은 언어학적 응용 가능성을 최소한의 인간 개입으로 가능하게 하는 prompt 기반 TN을 사용하는 방법으로 제안된다. 더불어, 우리는…
출처: Apple
요약번역: 미주투데이 서현진 기자