Nanbeige4-3B-Thinking: 23T 토큰 파이프라인이 3B 모델을 30B 클래스 추론으로 끌어올리는 방법

Boss Zhipin의 Nanbeige LLM Lab에서 발표한 Nanbeige4-3B는 3B 모델이 매개변수를 확장하는 대신 훈련 레시피를 수정함으로써 30B 클래스 추론을 제공할 수 있는지에 대한 연구를 진행했다. 이 모델은 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 두고 훈련된 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 가능케 하였다. 연구팀은 2개의 주요 체크포인트를 제공했다. 이러한 연구결과는 AI 논문 요약, 언어 모델, 기계 학습, 신규 출시, 오픈소스 등 다양한 분야에서 활용될 것으로 기대된다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자