Microsoft AI, VibeVoice-Realtime 릴리스: 스트리밍 텍스트 입력과 강력한 장문 음성 생성을 지원하는 경량 실시간 텍스트 음성 변환 모델
Microsoft은 VibeVoice-Realtime-0.5B를 발표했습니다. 이 모델은 스트리밍 텍스트 입력 및 장문 음성 출력과 함께 작동하는 실시간 텍스트 음성 변환 모델로, 에이전트 스타일 애플리케이션 및 실시간 데이터 내레이션을 대상으로 합니다. 이 모델은 약 300ms 안에 청취 가능한 음성을 생성할 수 있는데, 이는 언어 모델이 여전히 나머지 부분을 생성 중일 때 중요합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자