음성에서의 과격한 그레인 수용에 대한 원칙적 접근

음성 생성 가속화를 위해 과감한 디코딩은 빠른 초안 모델이 대상 모델이 확인하는 토큰을 제안함으로써 이루어진다. 그러나 음성 LLMs의 경우 정확한 토큰 매칭은 지나치게 제한적이다. 많은 이산 토큰은 음향적으로나 의미론적으로 상호 교환 가능하며, 이는 수용률을 줄이고 가속화를 제한한다. 우리는 대상 모델의 임베딩 공간에서 유도된 Acoustic Similarity Groups (ASGs) 수준에서 제안을 확인하는 Principled Coarse-Graining (PCG)을 소개한다. 각 토큰의 확률 질량을 분할함으로써…
출처: Apple
요약번역: 미주투데이 서현진 기자