매개변수 대 FLOPs: 최적 희소성에 대한 스케일링 법칙 – 전문가 혼합 언어 모델을 위한

언어 모델의 용량을 증가시키는 것은 성능을 향상시키고 새로운 기능을 발견하는 데 신뢰할만한 방법으로 입증되었습니다. 용량은 주로 두 가지 차원으로 정의될 수 있습니다: 모델 매개변수의 수와 예제 당 연산량입니다. 스케일링은 일반적으로 두 가지 모두를 증가시키는 것을 포함하지만, 이러한 요소들 사이의 정확한 상호 작용과 전체 용량에 대한 복합적인 기여는 아직 완전히 이해되지 않은 상태입니다. 우리는 이러한 요인들 사이의 정확한 상호 작용을 탐구하고, 전체적인 용량에 대한 결합 기여를 평가하며, 최종적으로 최적의 희소성을 위한 스케일링 법칙을 제시합니다. 이 논문은 ICLR 2025에서 열린 Sparsity in LLMs (SLLM): Deep Dive into Mixture of Experts, Quantization, Hardware, and Inference 워크샵에서 받아들여졌습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자