애플, 대규모 비선형 RNN 훈련 기술 개발

애플의 연구진이 비선형 순환 신경망(ParaRNN)의 대규모 훈련을 가능하게 하는 혁신적인 기술을 발표했다. 순환 신경망(RNN)은 효율적인 추론에 적합하지만, 기존의 계산 방식 때문에 수십억 개의 매개변수로 확장하는 데 어려움이 있었다. 그러나 이번 연구를 통해 RNN 훈련의 효율성이 크게 향상되면서, 대규모 훈련이 처음으로 가능해졌다. 이는 특히 자원이 제한된 환경에서 대규모 언어 모델(LLM)을 설계하는 데 있어 다양한 아키텍처 선택지를 제공할 것으로 기대된다.
출처: Apple
요약번역: 미주투데이 서현진 기자