NVIDIA, Gated DeltaNet-2 발표: 델타 규칙에서 지우기와 쓰기를 분리하는 선형 주의 레이어

NVIDIA가 최근 Gated DeltaNet-2를 발표했습니다. 이 모델은 기존의 델타 규칙 모델들이 사용하던 단일 스칼라 게이트 대신, 키 축에서 채널별 지우기 게이트(b_t)와 값 축에서 채널별 쓰기 게이트(w_t)를 분리하여 메모리 편집의 효율성을 높였습니다. Gated DeltaNet-2는 1.3B 파라미터를 가지고 있으며, 100B FineWeb-Edu 토큰으로 훈련되었습니다. 이 모델은 언어 모델링, 상식 추론, 긴 문맥 검색 등 여러 작업에서 Mamba-2, Gated DeltaNet, KDA, Mamba-3를 능가하는 성능을 보여주었습니다. 특히 RULER S-NIAH와 다중 키 니들 검색에서 가장 큰 성과를 기록했습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자