
텐센트 훈유안 연구원은 HY-MT1.5를 발표했는데, 모바일 기기와 클라우드 시스템을 대상으로 하는 다국어 기계 번역 모델로, 33개 언어 간 상호 번역을 지원하며 GitHub와 Hugging Face에서 이용 가능하다.

텐센트 훈유안 연구원은 HY-MT1.5를 발표했는데, 모바일 기기와 클라우드 시스템을 대상으로 하는 다국어 기계 번역 모델로, 33개 언어 간 상호 번역을 지원하며 GitHub와 Hugging Face에서 이용 가능하다.
이 튜토리얼에서는 실시간으로 자연어를 통해 이해, 추론 및 응답이 가능한 의지를 갖춘 음성 AI 어시스턴트를 구축하는 방법을 탐구합니다. 음성 인식, 의도 감지, 다단계 추론 및 텍스트 음성 합성을 통합하는 자체 음성 인텔리전스 파이프라인을 설정하는 것부터 시작하여, 우리는 듣고 반응하며 디자인합니다.
Neuphonic이 NeuTTS Air를 공개했는데, 이는 748M 파라미터(큐윈2 아키텍처)를 갖춘 오픈소스 텍스트 음성 변환 모델로, 클라우드 의존성 없이 CPU에서 실시간으로 실행될 수 있다. Apache-2.0 라이선스 하에 제공되며, 러너블 데모와 함께 제공된다.
WhisperX를 활용한 음성 AI 파이프라인의 고급 구현 방법을 안내하는 튜토리얼. 전사, 정렬, 단어별 타임스탬프에 대해 자세히 살펴보며 환경 설정, 오디오 로드 및 전처리, 전사에서 정렬 및 분석까지의 전체 파이프라인 실행과 메모리 효율성 및 배치 처리 지원에 대해 다룸.
음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.
캘리포니아 소재 음성 AI 스타트업 TwinMind은 Ear-3 음성 인식 모델을 공개하며 탁월한 성능과 다국어 지원을 주장하고 있다. Ear-3은 Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics, OpenAI와 같은 기존 ASR 솔루션에 대항하는 경쟁력 있는 제품으로 소개되었다.
2025년 음성 AI 기술은 실시간 대화형 AI, 감정 지능, 음성 합성 등에서 혁명적인 발전을 이루었습니다. 기업들이 음성 에이전트를 점점 채택하고 소비자들이 차세대 AI 어시스턴트를 수용함에 따라 각 산업 전문가들에게 최신 소식에 대한 정보 파악이 중요해졌습니다. 글로벌 음성 AI 시장은 54억 달러에 이르렀습니다.
Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.
2025년은 음성 AI 에이전트에 대한 전환점으로, 10년 전에는 상상도 못했던 자연스러움, 문맥 이해, 상용 채택 수준의 기술이 도래했다. 음성 인식, 자연어 이해, 다중 모달 통합 등의 큰 발전을 통해 음성 AI는 더 이상 명령 및 질의 시스템에 한정되지 않고 중심적 인터페이스로 신속히 발전하고 있다.