상하이 교통대학 연구원들, 강화 학습-확장 가능한 LLM 개발을 위한 OctoThinker 제안

발행일: 2025년 7월 2일 오후 9시 02분

상하이 교통대학 연구원들이 강화 학습을 통한 복잡한 추론 작업에 대한 확장 가능한 Large Language Model (LLM) 개발을 위해 OctoThinker를 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 강화 학습을 적용함으로써 강한 추론 능력을 보여주었다. 이와 유사하게 SimpleRL 및 Open-ReasonerZero와 같은 방법은 Qwen과 같은 작은 모델에서도 개선을 보여주었다. 이러한 연구는 복잡한 추론 작업에 대한 LLM의 발전을 촉진하는 중요한 역할을 할 것으로 보인다.

#AI논문요약 #기계학습 #기술뉴스 #새로운출시 #언어모델 #응용프로그램 #인공지능 #편집자선정.

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자