음성에서의 추론 디코딩을 위한 원칙적인 거친 그레인 수용

음성 생성에서 추론 디코딩은 빠른 초안 모델이 제안한 토큰을 큰 대상 모델이 확인함으로써 가속화된다. 그러나 음성 LLMs의 경우 정확한 토큰 일치는 지나치게 제한적이다. 많은 이산 토큰은 음향적으로나 의미론적으로 서로 교환 가능하기 때문에 수용률이 감소하고 가속이 제한된다. 이러한 문제를 해결하기 위해 우리는 목표 모델의 임베딩 공간에서 유도된 Acoustic Similarity Groups(ASGs) 수준에서 제안을 검증하는 Principled Coarse-Graining (PCG)을 소개한다. 각 토큰의 확률 질량을 분할하여 추론 디코딩의 속도를 향상시키고 효율적으로 수용률을 높일 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자