코드 생성 LLMs에서의 장거리 의존성 처리 평가

언어 모델이 더 많은 문맥을 지원할수록 그 문맥을 효과적으로 활용하는 능력을 평가하는 것이 점점 중요해진다. 이러한 맥락에서, 여러 코드 생성 모델이 장거리 종속성을 처리하는 능력을 분석하는 연구가 진행되었다. 이 연구에서는 8k 토큰 길이의 컨텍스트 창에서 다중 단계 키 검색 작업을 사용하여 모델 능력을 평가했다. 이러한 작업은 점차 어려워지며, 인기 있는 바늘 찾기 테스트와 같은 테스트보다 모델 능력에 대해 더 세부적인 평가를 가능케 한다. 연구 결과, 많은 모델에서 성능이 많이 저하되는 것으로 나타났는데, 최대 2배까지 성능이 감소하는 경우도 있었다.
출처: Apple
요약번역: 미주투데이 서현진 기자