Miso Labs, 오픈 웨이트 기반의 8B 감정 텍스트 음성 변환 모델 MisoTTS 출시

Miso Labs가 새로운 텍스트 음성 변환 모델인 MisoTTS를 발표했습니다. 이 모델은 오픈 웨이트를 기반으로 하며, 8B의 감정 표현이 가능한 기능을 갖추고 있습니다. MisoTTS는 잔여 벡터 양자화(residual vector quantization, RVQ) 기술을 활용하여 파라미터를 늘리지 않고도 음향 범위를 확장할 수 있습니다. 또한, 텍스트와 오디오 맥락을 모두 고려하여 화자의 톤에 맞춰 반응하는 특징이 있습니다. 이 모델은 7.7B의 백본과 300M의 깊이 디코더로 구성되어 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자