2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
Nanbeige4-3B-Thinking: 23T 토큰 파이프라인이 3B 모델을 30B 클래스 추론으로 끌어올리는 방법
발행일: 2025년 12월 13일 오후 3시 00분

Boss Zhipin의 Nanbeige LLM Lab에서 발표한 Nanbeige4-3B는 3B 모델이 매개변수를 확장하는 대신 훈련 레시피를 수정함으로써 30B 클래스 추론을 제공할 수 있는지에 대한 연구를 진행했다. 이 모델은 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 두고 훈련된 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 가능케 하였다. 연구팀은 2개의 주요 체크포인트를 제공했다. 이러한 연구결과는 AI 논문 요약, 언어 모델, 기계 학습, 신규 출시, 오픈소스 등 다양한 분야에서 활용될 것으로 기대된다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자