
구글 딥마인드가 음악 분야에서도 창의적 AI의 한계를 넓혔다. Lyria 3은 사진과 텍스트를 이용해 사용자 맞춤 트랙을 생성하는 고급 음악 생성 모델로, 복잡한 오디오 파형과 창의적 의도를 다루는데 큰 전환점을 제공한다.

구글 딥마인드가 음악 분야에서도 창의적 AI의 한계를 넓혔다. Lyria 3은 사진과 텍스트를 이용해 사용자 맞춤 트랙을 생성하는 고급 음악 생성 모델로, 복잡한 오디오 파형과 창의적 의도를 다루는데 큰 전환점을 제공한다.

Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.
nineninesix.ai 팀이 출시한 ‘Kani-TTS-2’는 효율성을 중시하는 새로운 오픈 소스 음성 생성 모델로, 작은 용량으로 고품질 음성 합성을 제공하며 음성 복제 기능을 지원한다.

알리바바 클라우드의 Qwen 팀이 Qwen3-TTS를 오픈소스로 공개했습니다. 이는 음성 클론, 음성 디자인, 고품질 음성 생성이라는 세 가지 핵심 작업을 대상으로 하는 멀티링구얼 텍스트 음성 모델 패밀리입니다. Qwen3-TTS는 12Hz 음성 토크나이저와 2개의 언어 모델 크기(0.6B, 1.7B)를 사용하며, 실시간 세밀한 음성 제어 기능을 제공합니다.
이 튜토리얼에서는 현대적인 저지연 대화 시스템이 실시간으로 작동하는 방식을 모방하는 완전한 스트리밍 음성 에이전트를 구축합니다. 청크화된 오디오 입력 및 스트리밍 음성 인식부터 점진적 언어 모델 추론 및 스트리밍된 텍스트 음성 출력까지의 파이프라인을 시뮬레이션하며 각 단계에서 명시적으로 지연 시간을 추적합니다.

NVIDIA의 연구진이 PersonaPlex-7B-v1을 발표했는데, 이는 자연스러운 음성 상호작용을 위한 풀 더플렉스 대화 모델로, 정확한 페르소나 제어를 목표로 한다. ASR→LLM→TTS에서 단일 풀 더플렉스 모델로 진화했다. 기존 음성 어시스턴트는 ASR이 음성을 텍스트로 변환하고, 언어 모델이 텍스트 답변을 생성한 후, 텍스트를 음성으로 변환한다.

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.