아마존 세이지메이커 레이크하우스 보관

최신뉴스 전체보기

본문에서는 Mixture of Experts (MoE) 모델에 대한 멀티-로라 추론을 구현하는 방법과 커널 수준의 최적화에 대해 설명하며, 이 작업에서 어떻게 이점을 얻을 수 있는지 보여줍니다. GPT-OSS 20B를 이 포스트 전체에서 주요 예제로 사용합니다.

2026년 2월 25일 오후 3시 56분AWS Blog