독점적 자기 주의(XSA) 소개

독점적 자기 주의(Exclusive Self Attention, XSA)는 자기 주의(Self Attention, SA)의 간단한 수정으로, 변형기(Transformer)의 시퀀스 모델링 성능을 개선하는 방법입니다. XSA의 핵심 아이디어는 주의 메커니즘을 조정하여 토큰의 고유 값 벡터와 직교하는 정보만을 포착하도록 제한하는 것입니다. 이를 통해 자기 위치 정보를 제외하고 더 나은 맥락 모델링을 유도합니다. 표준 언어 모델링 작업에서 평가한 결과, XSA는 최대 27억 개의 매개변수를 가진 모델 크기에서 SA를 지속적으로 능가하며, 시퀀스 길이가 증가할수록 성능 향상이 더욱 두드러지는 것으로 나타났습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자