생성형 음성 언어 모델의 자연함 향상을 위한 변분 프레임워크

대형 언어 모델의 성공은 텍스트 처리에 영감을 주었고, 이러한 모델을 음성 모델링에 적응시키는 데에도 영감을 주었다. 그러나 음성은 연속적이고 복잡하기 때문에 자동 회귀 모델링을 위해 종종 이산화된다. 자기 지도 모델에서 파생된 음성 토큰(의미 토큰이라고도 함)은 일반적으로 음성의 언어적 측면에 초점을 맞추지만 억양 정보를 무시한다. 결과적으로, 이러한 토큰으로 훈련된 모델은 자연함이 감소한 음성을 생성할 수 있다. 기존 접근 방식은 이를 해결하기 위해 음성 토큰에 음높이 특성을 추가하는 것이지만, 음높이만으로는 음성의 전체 범위를 완전히 표현할 수 없다. 이 연구에서는, 생성된 음성이 더 자연스러워지도록 음성 토큰의 분포를 더 잘 모델링하기 위한 변분 프레임워크를 제안한다. 이 프레임워크는 효과적으로 음성의 음향적 속성과 억양 정보를 통합하여 자연스러운 음성 생성에 기여할 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자