음성에서의 과격한 그레인 수용에 대한 원칙적 접근

발행일: 2026년 1월 27일 오전 12시 00분

음성 생성 가속화를 위해 과감한 디코딩은 빠른 초안 모델이 대상 모델이 확인하는 토큰을 제안함으로써 이루어진다. 그러나 음성 LLMs의 경우 정확한 토큰 매칭은 지나치게 제한적이다. 많은 이산 토큰은 음향적으로나 의미론적으로 상호 교환 가능하며, 이는 수용률을 줄이고 가속화를 제한한다. 우리는 대상 모델의 임베딩 공간에서 유도된 Acoustic Similarity Groups (ASGs) 수준에서 제안을 확인하는 Principled Coarse-Graining (PCG)을 소개한다. 각 토큰의 확률 질량을 분할함으로써…

#인공지능

출처: Apple

요약번역: 미주투데이 서현진 기자