Together AI, OSCAR 오픈소스 공개: 주의 기반 2비트 KV 캐시 양자화 시스템

Together AI는 OSCAR(오프라인 스펙트럴 공분산 인식 회전)를 오픈소스로 공개했습니다. OSCAR는 긴 문맥의 LLM(대형 언어 모델) 서비스를 위한 INT2 KV 캐시 양자화 방법으로, 기존의 데이터 무관한 하다마르 변환 방식과는 달리, 주의 기반의 공분산 구조를 오프라인에서 추정하여 키와 값에 대해 별도의 회전을 도출합니다. 이 시스템은 KV 요소당 2.28비트의 양자화를 통해 Qwen3-4B-Thinking-2507에서 BF16 정확도 차이를 3.78포인트, Qwen3-8B에서는 1.42포인트로 줄였습니다. 또한, 약 8배의 KV 메모리 절감과 100K 문맥 길이에서 최대 3배의 디코드 속도 향상을 제공합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자