티어드 LLM 아키텍처를 위한 비동기 검증된 의미 캐싱

대형 언어 모델(Large language models, LLMs)은 검색, 어시스턴스, 에이전틱 워크플로우의 핵심 경로에 있어 의미 캐싱이 추론 비용과 대기 시간을 줄이기 위해 필수적이다. 이는 전체 모델을 실행하지 않고 일부 부분을 캐싱하여 검색, 어시스턴스 및 대화 시스템의 추론 비용과 대기 시간을 줄일 수 있기 때문이다. 일반적으로, 프로덕션 배포는 정적 캐시와 동적 캐시의 티어드(static-dynamic) 설계를 사용한다. 정적 캐시는 오프라인에서 채굴된 검증된 응답으로 구성되며, 동적 캐시는 온라인으로 채워진다. 그러나 실제로는 두 티어가 모두 단일 임베딩 유사도 임계값에 의해 조정되는 것이 일반적이다. 이는 보수적인 임계값은 안전한 재사용 기회를 놓치게 하고, 공격적인 임계값은 의미적으로 정확하지 않은 것을 제공할 위험을 가지게 한다. 이러한 문제를 해결하기 위해 본 연구에서는 비동기 검증된 의미 캐싱 시스템을 제안하고 있다. 이 시스템은 의미 캐싱의 임계값을 동적으로 조정함으로써 정확성과 재사용성 사이의 균형을 유지한다. 이를 통해 추론 비용을 줄이고 대기 시간을 단축시키는 동시에 성능을 향상시킬 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자