Microsoft, VibeVoice-ASR 공개: 60분 긴 음성을 한 번에 처리하는 통합 음성-텍스트 모델

Microsoft은 VibeVoice 패밀리의 일환으로 VibeVoice-ASR을 공개했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 이 모델은 사용자 지정 핫워드를 지원하여 보다 맞춤화된 음성-텍스트 변환을 가능하게 한다. VibeVoice는 다양한 분야에서 활용될 수 있을 것으로 기대된다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자