모듈, 너비, 깊이, 배치 및 기간 간의 완료된 하이퍼파라미터 전이

대규모 모델의 훈련 안정성과 최종 성능은 하이퍼파라미터 튜닝에 크게 의존한다. 최근의 연구에서는 신경망 매개변수화에 대한 작업들이, μP와 같은 최적의 전역 하이퍼파라미터를 모델 크기에 걸쳐 전이할 수 있도록 했다. 이러한 작업들은 작은 모델 크기에서 최적의 전역 기본 하이퍼파라미터를 탐색하고, 큰 모델로 전이하는 경험적인 방법을 제안한다. 이러한 작업을 두 가지 핵심적인 방식으로 확장한다. 가장 중요한 스케일링 축을 따라 스케일링을 다루기 위해, 우리는 완전한 매개변수화를 제안한다. 이는 폭과 깊이에서 스케일링을 통합하는 것을 의미한다.
출처: Apple
요약번역: 미주투데이 서현진 기자