키-값 캐시에서의 축출 학습

최근 대규모 언어 모델(Large Language Models, LLMs)의 증가로 인해 효율적인 추론이 어려워지고 있는데, 이는 자기회귀 키-값(Key-Value, KV) 캐시의 메모리 요구 때문이다. 기존의 축출 또는 압축 방법은 비용을 줄이지만, 토큰의 미래 유효성에 대한 간접적인 대리인으로만 기능하는 휴리스틱에 의존한다. 이러한 한계를 극복하기 위해 KV 캐시 축출을 강화 학습(Reinforcement Learning, RL) 문제로 새로이 제시하였다. 이는 미래 디코딩을 위한 토큰의 예측된 유용성에 따라 토큰을 순위 지정하는 것을 학습하는 것이다. 이를 위해 KV 정책(KV Policy, KVP)이라는 프레임워크를 도입하여 더욱 효율적인 모델을 구축하고자 한다. 이 방법은 휴리스틱 방법보다 더 나은 결과를 보여줄 수 있으며, 미래의 유용성을 직접적으로 고려하여 효율적인 토큰 관리가 가능하다.
출처: Apple
요약번역: 미주투데이 서현진 기자