2026년 3월 8일 일요일
오늘의 신문
2026년 3월 8일 일요일 오늘의 신문
CommVQ: Commutative Vector Quantization를 이용한 KV 캐시 압축
발행일: 2025년 7월 11일 오전 12시 00분

대형 언어 모델(Large Language Models, LLMs)은 점점 더 긴 문맥을 필요로 하는 응용 프로그램에서 사용되고 있지만, 문맥 길이가 증가함에 따라 키-값 (KV) 캐시는 GPU에서 메모리 병목 현상이 발생합니다. 이를 해결하기 위해 우리는 Commutative Vector Quantization (CommVQ)을 제안하여, 긴 문맥 LLM 추론을 위한 메모리 사용량을 현저히 줄일 수 있습니다. 먼저, 우리는 가벡터 양자화를 활용하여 가벡터 캐시를 압축하기 위한 가벡터 인코더와 코드북을 도입하고, 이를 간단한 행렬 곱셈으로 디코딩할 수 있습니다. 둘째, 디코딩 중 발생하는 높은 계산 비용에 대처하기 위해 우리는…

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자