적응형 깊이별 캐시 공유를 위한 확률적 KV 라우팅

변환기 언어 모델을 높은 처리량으로 제공하기 위해서는 키-값(KV) 캐싱이 필수적이다. 이는 자가 회귀 생성 과정에서 중복 계산을 피하는 데 도움을 준다. 그러나 KV 캐싱의 메모리 사용량은 상당하며, 이는 서비스 비용에 큰 영향을 미친다. 최근 연구들은 주로 시간 축을 따라 KV 캐시를 압축하거나 제거하는 방법에 집중해왔다. 하지만 이 연구에서는 깊이 차원에서 최적화를 통해 메모리 요구 사항을 줄일 수 있는 가능성을 제시한다. 이전 연구에서는 각 레이어마다 전체 캐시를 유지하는 것이 중복적이라고 주장했으나, 본 연구는 이를 다르게 접근하고 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자