RWKV-X가 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 효율적인 1백만 토큰 디코딩 가능

Transformer 아키텍처를 기반으로 한 Large Language Models (LLMs)은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪습니다. 이 문제를 해결하기 위해 선형 어텐션 모델, Mamba와 같은 State Space 모델, DeltaNet과 같은 선형 RNN, 그리고 RWKV와 같은 방법이 제안되었습니다. 그러나 이러한 선형 아키텍처는 긴 문맥을 이해하는 데 어려움을 겪습니다. 예를 들어, RWKV-7 (2.9B)은 높은 정확도를 달성하지만, 여전히 긴 문맥에 대한 이해력에 한계가 있습니다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 시간 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 합니다. 이는 기존의 선형 모델보다 뛰어난 성능을 보여줍니다.
#AIPaperSummary #Applications #ArtificialIntelligence #EditorsPick #LanguageModel #Machinelearning #TechNews #Technology
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자