NVIDIA AI가 Nemotron Speech ASR을 공개: 음성 에이전트와 라이브 자막 등 저지연 사용 사례를 위해 처음부터 설계된 새로운 오픈 소스 전사 모델

발행일: 2026년 1월 7일 오후 1시 12분

NVIDIA는 최근 새로운 스트리밍 영어 전사 모델인 Nemotron Speech ASR을 발표했습니다. 이 모델은 저지연 음성 에이전트와 라이브 자막을 위해 특별히 설계되었습니다. Hugging Face의 nvidia/nemotron-speech-streaming-en-0.6b 체크포인트는 캐시 인식 FastConformer 인코더와 RNNT 디코더를 결합하고, 현대 NVIDIA GPU에서 스트리밍 및 배치 작업에 튜닝되었습니다. 모델 설계, 아키텍처 등에 대한 자세한 내용은 링크를 참고하세요.

#AgenticAI #ArtificialIntelligence #AudioLanguageModel #EditorsPick #LargeLanguageModel #NewReleases #OpenSource #Technology #VoiceAI

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자