전문가 모델 사전 학습을 통한 전문가 모델의 평균

대규모 모델은 여러 다른 데이터 소스의 혼합물을 기반으로 훈련됩니다. 이러한 다양한 데이터 혼합물은 하류 성능이 매우 다를 수 있습니다. 이 연구에서는 모델을 다시 훈련할 필요 없이 각 데이터 혼합물에 대한 모델을 생성할 수 있는 새로운 아키텍처인 “전문가 모델의 수프”를 제안합니다. 이 아키텍처는 전문가 가중치 은행으로 구성되어 있으며, 입력 히스토그램의 함수로 선형 결합 계수를 학습합니다. 이 아키텍처를 교육하는 방법은 무작위 히스토그램을 샘플링하고 해당 모델을 생성한 후 데이터 배치를 통해 역전파하는 것입니다. 이를 통해 각 데이터 혼합물에 대한 전문가 모델을 사전에 학습할 수 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자