확률적 경사 하강법(SGD)의 빈도 편향과 Adam의 해결 방법

현대의 언어 모델은 매우 불균형한 토큰 분포를 가진 데이터로 훈련됩니다. 일부 단어는 거의 모든 문장에서 등장하는 반면, 많은 희귀하지만 의미 있는 토큰은 가끔만 나타납니다. 이러한 불균형은 최적화 과정에서 숨겨진 도전 과제를 만들어냅니다. 일반적인 토큰과 관련된 매개변수는 지속적으로 기울기 업데이트를 받는 반면, 희귀한 토큰과 관련된 매개변수는 수백 번의 업데이트를 받지 못할 수 있습니다. 이러한 문제를 해결하기 위해 Adam 옵티마이저가 제안되었습니다. Adam은 빈도 편향을 줄이고 희귀한 토큰에 대한 업데이트를 개선하는 방법을 제공합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자