TASER: 시스템적 평가와 추론을 통한 번역 평가

TASER (Translation Assessment via Systematic Evaluation and Reasoning)은 대규모 추론 모델(Large Reasoning Models, LRMs)을 활용한 자동 번역 품질 평가 메트릭으로 소개됩니다. TASER는 LRMs의 명시적 추론 능력을 활용하여 번역 품질을 체계적이고 단계적으로 평가합니다. WMT24 Metrics Shared Task에서 TASER를 평가한 결과, 참조 기반 및 비참조 기반 시나리오 모두에서 최신 기술 수준의 성능을 보여줍니다. 시스템 수준에서 TASER는 참조 기반 및 비참조 기반 설정 모두에서 가장 높은 소프트 페어와이즈 정확도를 달성합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자