
Kyutai, 220ms 지연 시간과 2.5백만 시간의 훈련을 통한 2B 파라미터 스트리밍 텍스트 음성 변환(TTS) 발표
Kyutai가 2조 개의 파라미터로 구성된 혁신적인 스트리밍 텍스트 음성 변환 모델을 발표했습니다. 이 모델은 초저지연 시간(220밀리초)으로 고품질의 오디오 생성을 제공하며 전례없는 2.5백만 시간의 오디오로 훈련되었습니다. CC-BY-4.0에 따라 라이선스가 부여되었습니다.
