Xiaomi, 100백만 시간 학습한 7B 말/언어 모델 ‘MiMo-Audio’ 공개
Xiaomi의 MiMo 팀은 MiMo-Audio를 발표했습니다. 이는 100백만 시간 이상의 오디오를 기반으로 한 7조 파라미터 오디오-언어 모델로, 텍스트와 이산화된 음성을 번갈아가며 단일 다음 토큰 목표를 실행하여 사전 학습을 확장했습니다. MiMo-Audio는 과업별 헤드나 손실 악센트 토큰에 의존하는 대신, 의미론적 정보와 음성을 타깃팅하는 RVQ(잔차 벡터 양자화) 토크나이저를 사용합니다. 이 모델의 성능은 뛰어나며, 개발자들에게 새로운 실험 및 기술적 기회를 제공할 것으로 기대됩니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자