Nous Research, NousCoder-14B 발표: Qwen3-14B로 강화학습 후 훈련받은 경쟁 프로그래밍 모델

Nous Research가 NousCoder-14B를 소개했습니다. 이 모델은 Qwen3-14B를 사용하여 강화학습(Reinforcement Learning, RL)으로 후훈련된 경쟁 프로그래밍 모델로, 검증 가능한 보상을 가지고 있습니다. 모델은 08/01/2024부터 05/01/2025까지의 문제를 다루는 LiveCodeBench v6 벤치마크에서 Pass@1 정확도가 67.87%로 나타났습니다. 이는 Qwen3-14B의 7.08% 높은 수치입니다. NousCoder-14B는 프로그래밍 대회에서 뛰어난 성과를 보여주고 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자