mAceReason-Math: RLVR에 최적화된 고품질 다국어 수학 문제 데이터셋 공개

강화학습 기법 중 하나인 검증 가능한 보상 기반 강화학습(RLVR)은 사전 학습된 대형 언어 모델의 수학 및 논리 문제 해결 능력을 크게 향상시키는 데 성공했다. 그러나 기존 연구와 학습용 데이터셋은 대부분 영어에 치중되어 있어 다국어 지원과 RLVR 적용에 적합한 데이터가 부족한 상황이다. 과거에 다국어 학습 데이터와 벤치마크가 개발된 적은 있으나, 이들은 RLVR과 현재 모델의 성능을 고려하지 않았고, 문제 난이도도 낮아 최신 모델 학습에 적합하지 않았다. 이를 해결하기 위해 mAceReason-Math라는 고품질 다국어 수학 문제 데이터셋이 제공되었다. 이 데이터셋은 RLVR에 최적화되어 있어 다양한 언어 환경에서 대형 언어 모델의 수학 문제 해결 능력을 효과적으로 향상시킬 수 있다.
출처: Apple
요약번역: 미주투데이 서현진 기자