Kyutai, 220ms 지연 시간과 2.5백만 시간의 훈련을 통한 2B 파라미터 스트리밍 텍스트 음성 변환(TTS) 발표

Kyutai는 2조 개의 파라미터로 구성된 혁신적인 스트리밍 텍스트 음성 변환(TTS) 모델을 발표했습니다. 이 모델은 실시간 반응성을 위해 설계되어 220밀리초의 초저지연 시간으로 고품질의 오디오 생성을 제공합니다. 이 모델은 전례없는 2.5백만 시간의 오디오로 훈련되었으며 허용하는 CC-BY-4.0에 따라 라이선스가 부여되어 Kyutai의 약속을 강화하고 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자