Microsoft, VibeVoice-1.5B 공개: 4명의 다른 화자로 최대 90분 음성 합성 가능한 오픈소스 텍스트 음성 모델
Microsoft은 최근 오픈소스로 공개한 VibeVoice-1.5B를 통해 텍스트 음성(TTS) 기술의 경계를 재정의하고 있다. 이 모델은 MIT 라이선스로 배포되어 연구용으로 매우 유연하고 확장 가능하며, 최대 90분의 연속된 자연스러운 음성을 생성할 수 있는 기능을 제공한다. 이는 단순히 또 다른 TTS 엔진이 아닌, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 프레임워크로 설계되었다. VibeVoice-1.5B는 신뢰할 수 있는 음성 생성을 위해 고도로 특화되어 있으며, 동시에 여러 화자의 음성을 생성할 수 있는 기능도 제공한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자