구글, LLM 메모리 효율을 6배 향상시키는 TurboQuant 압축 알고리즘 발표
구글 연구팀이 발표한 TurboQuant는 대형 언어 모델(LLM)의 메모리 통신 오버헤드를 줄이기 위한 데이터 무관량화 프레임워크입니다. LLM의 키-값(KV) 캐시 크기는 모델의 차원과 컨텍스트 길이에 따라 증가하는데, 이는 긴 컨텍스트 추론에서 상당한 병목 현상을 초래합니다. TurboQuant는 이러한 문제를 해결하기 위해 설계되었으며, 메모리 사용량을 6배 줄이고, 처리 속도를 최대 8배 향상시킬 수 있습니다. 이 모든 과정에서 정확도 손실은 전혀 발생하지 않습니다. 구글의 이번 발표는 AI 인프라와 응용 분야에서 중요한 발전으로 평가받고 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자