MoEs는 생각보다 강력합니다: RoE와 함께 하는 초병렬 추론 스케일링

대형 언어 모델(Large Language Models, LLMs)의 생성 품질은 종종 추론 시퀀스 수준 스케일링 방법(Chain-of-Thought 등)을 활용하여 향상됩니다. 이에 보조적인 프레임워크로 토큰 수준에서 예측 품질을 향상시키는 초병렬 스케일링을 소개합니다. 초병렬 스케일링은 모델로부터 단일 토큰에 대해 여러 출력 제안을 계산하고 집계합니다. 이 개념을 Mixture-of-Experts(MoE) 모델에 구현한 것이 RoE(Roster of Experts)입니다. RoE는 훈련 없는 추론 알고리즘이며, 단일 MoE를 MoE의 동적 앙상블로 변환합니다. MoEs(Mixture of Experts)는 생각보다 강력하며, RoE를 통해 초병렬 추론 스케일링을 구현할 수 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자