Microsoft AI, rStar2-Agent 소개: 14B 수학 추론 모델, 에이전틱 강화학습으로 학습하여 선도 수준 성능 달성

발행일: 2025년 8월 30일 오전 2시 41분

마이크로소프트의 AI 팀은 rStar2-Agent라는 14B(140억) 파라미터를 가진 수학 추론 모델을 소개했다. 이 모델은 에이전틱 강화학습을 통해 훈련되었으며, 기존 모델들의 한계를 극복하고 선도적인 성능을 보여준다. 대규모 언어 모델은 수학적 추론 분야에서 진전을 이루었지만, 연쇄 사고 과정을 더욱 확장하는 것은 한계가 있다. rStar2-Agent는 이러한 한계를 극복하기 위해 개발되었다. 이 모델은 세계에서 가장 큰 훈련 데이터셋 중 하나로 약 1PB(페타바이트)에 해당하는 데이터를 사용하여 훈련되었다. 이 모델은 강화학습을 통해 더 나은 추론 능력을 갖추게 되었고, 선도 수준의 성능을 달성했다. 더 많은 세부적인 추론 단계를 통해 ‘더 오래 생각하는’ 것에는 한계가 있는데, rStar2-Agent는 이러한 한계를 극복하고 더욱 정확한 수학적 추론을 수행한다.

#AI논문요약 #AI소식 #AI에이전트 #기술 #기술뉴스 #머신러닝 #신규출시 #에이전틱AI #응용프로그램 #인공지능

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자