Amazon SageMaker HyperPod를 위한 관리형 Tiered KV 캐시 및 지능적 라우팅

Amazon SageMaker HyperPod를 위한 관리형 Tiered KV 캐시 및 지능적 라우팅이 소개되었다. 이러한 기능은 장문 프롬프트 및 다중 대화에서 최대 40%의 첫 토큰 시간 감소와 최대 25%의 컴퓨팅 비용 절감을 제공한다. 이러한 기능은 분산된 KV 캐싱 인프라 및 지능적인 요청 라우팅을 자동으로 관리하여 제품 규모의 LLM(언어 모델) 추론 워크로드를 배포하는 것을 쉽게 하며 엔터프라이즈급 성능을 제공하면서 운영 오버헤드를 크게 줄인다. SageMaker HyperPod는 Amazon SageMaker Studio에서 실행되는 통합 AI 개발 및 배포 환경으로, 이제 이러한 새로운 기능을 통해 더욱 효율적으로 운영될 수 있을 것으로 기대된다.
출처: AWS Blog
요약번역: 미주투데이 최정민 기자