아마존 세이지메이커 AI와 아마존 베드락에서 vLLM을 사용하여 수십 개의 세밀하게 조정된 모델을 효율적으로 제공하기

이번 게시물에서는 vLLM에서 Mixture of Experts (MoE) 모델에 대한 멀티-로라 추론을 어떻게 구현했는지, 수행한 커널 수준의 최적화에 대해 설명하고, 이 작업에서 어떻게 혜택을 얻을 수 있는지 설명합니다. 이 포스트 전체에서 주로 GPT-OSS 20B를 주요 예제로 사용합니다. 이 모델은 세밀하게 조정된 수십 개의 모델을 효율적으로 제공하는 방법을 보여줍니다.
출처: AWS Blog
요약번역: 미주투데이 최정민 기자