아마존에서 규모 확장에 따른 다중 에이전트 오케스트레이션을 위한 고급 세밀 조정 기술

발행일: 2026년 1월 17일 오전 12시 51분

아마존은 고급 세밀 조정 기술을 적용하여 위험한 약물 오류를 33% 줄였으며, 인간 노력을 80% 절감하고, 콘텐츠 품질 평가의 정확도를 77%에서 96%로 향상시켰다고 합니다. 이러한 결과를 이루기 위해 아마존은 다양한 기술과 기법을 사용했습니다. 그 중에서도 Supervised Fine-Tuning (SFT), Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), Grouped-based Reinforcement Learning from Policy Optimization (GRPO), Direct Advantage Policy Optimization (DAPO), Group Sequence Policy Optimization (GSPO) 등이 있습니다. 이러한 기술들은 다중 에이전트 시스템에 최적화된 목적으로 개발되었습니다.

#AmazonSageMakerAI #BestPractices #GenerativeAI #Intermediate(200) #ThoughtLeadership

출처: AWS Blog

요약번역: 미주투데이 최정민 기자