2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
상하이 교통대학 연구원들, 강화 학습-확장 가능한 LLM 개발을 위한 OctoThinker 제안
발행일: 2025년 7월 2일 오후 9시 02분

상하이 교통대학 연구원들이 강화 학습을 통한 복잡한 추론 작업에 대한 확장 가능한 Large Language Model (LLM) 개발을 위해 OctoThinker를 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 강화 학습을 적용함으로써 강한 추론 능력을 보여주었다. 이와 유사하게 SimpleRL 및 Open-ReasonerZero와 같은 방법은 Qwen과 같은 작은 모델에서도 개선을 보여주었다. 이러한 연구는 복잡한 추론 작업에 대한 LLM의 발전을 촉진하는 중요한 역할을 할 것으로 보인다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자