독점적 자기 주의(XSA) 소개

발행일: 2026년 3월 25일 오전 12시 00분

독점적 자기 주의(Exclusive Self Attention, XSA)는 자기 주의(Self Attention, SA)의 간단한 수정으로, 변형기(Transformer)의 시퀀스 모델링 성능을 개선하는 방법입니다. XSA의 핵심 아이디어는 주의 메커니즘을 조정하여 토큰의 고유 값 벡터와 직교하는 정보만을 포착하도록 제한하는 것입니다. 이를 통해 자기 위치 정보를 제외하고 더 나은 맥락 모델링을 유도합니다. 표준 언어 모델링 작업에서 평가한 결과, XSA는 최대 27억 개의 매개변수를 가진 모델 크기에서 SA를 지속적으로 능가하며, 시퀀스 길이가 증가할수록 성능 향상이 더욱 두드러지는 것으로 나타났습니다.

출처: Apple

요약번역: 미주투데이 서현진 기자