Microsoft, VibeVoice-1.5B 공개: 4명의 다른 화자로 최대 90분 음성 합성 가능한 오픈소스 텍스트 음성 모델

발행일: 2025년 8월 25일 오후 7시 28분

Microsoft은 최근 오픈소스로 공개한 VibeVoice-1.5B를 통해 텍스트 음성(TTS) 기술의 경계를 재정의하고 있다. 이 모델은 MIT 라이선스로 배포되어 연구용으로 매우 유연하고 확장 가능하며, 최대 90분의 연속된 자연스러운 음성을 생성할 수 있는 기능을 제공한다. 이는 단순히 또 다른 TTS 엔진이 아닌, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 프레임워크로 설계되었다. VibeVoice-1.5B는 신뢰할 수 있는 음성 생성을 위해 고도로 특화되어 있으며, 동시에 여러 화자의 음성을 생성할 수 있는 기능도 제공한다.

#기술뉴스 #언어모델 #음성/오디오 #응용프로그램 #인공지능논문요약

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자