계층적 메모리를 활용한 사전훈련: 희귀 지식과 일반 지식 분리

현대 언어 모델의 놀라운 성능 향상은 주로 파라미터의 확장에 의존하고 있습니다. 이는 더 큰 모델이 더 많은 세계 지식을 저장하고 더 나은 추론을 하기 때문입니다. 그러나 모든 세계 지식을 파라미터로 압축하는 것은 필요하지 않습니다. 왜냐하면 프롬프트 당 사용되는 것은 일부분뿐이고, 추론 시간 메모리와 계산이 제한된 엣지 장치에 대해 비실용적입니다. 이러한 단점을 메모리 보강 구조와 기존 하드웨어 패러다임과 일치하는 사전훈련 전략으로 해결합니다. 세계 지식을 인코딩하는 대규모 계층적 파라미터 메모리 은행에 접근하는 소규모 언어 모델을 도입합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자