QuantSpec: 계층 적용된 양자화된 KV 캐시를 사용한 셀프-추론적 디코딩

발행일: 2025년 7월 11일 오전 12시 00분

대규모 언어 모델(Large Language Models, LLMs)은 점점 더 많은 edge 장치에 배포되고 있으며 장기 문맥 설정에 대한 필요성이 커지고 있다. 이러한 시나리오에서 Key-Value (KV) 캐시는 GPU 메모리와 지연 시간 양측에서 주요 병목 현상이다. 왜냐하면 전체 KV 캐시가 각 디코딩 단계마다 로드되어야 하기 때문이다. 자가-추론 디코딩은 자기회귀 디코딩을 가속화하는 널리 받아들여지는 기술이지만, 기존 방법들은 효율적인 KV 캐시 최적화 전략으로 인해 상당한 속도 향상을 달성하기 어려운 경우가 많아 수락률이 낮아지는 문제가 있다. 이에 본 연구는 Hierarchical Quantized KV Cache를 사용하여 셀프-추론적 디코딩을 제안하여 이러한 제한점을 극복한다. Hierarchical Quantized KV Cache는 KV 캐시를 계층적으로 양자화하여 메모리 사용량을 줄이고, 병렬 처리를 통해 추론 속도를 높이는 데 중점을 둔다. 이를 통해 저전력 edge 장치에서도 효과적인 장기 문맥 추론이 가능해진다.

#머신러닝

출처: Apple

요약번역: 미주투데이 서현진 기자