NVIDIA, 30B, 23B, 12B 모델을 포함한 Star Elastic 발표

NVIDIA 연구진이 Star Elastic을 발표했습니다. 이 방법은 30B, 23B, 12B 파라미터 규모의 여러 중첩된 추론 모델을 하나의 체크포인트에 통합하는 포스트 트레이닝 기법입니다. 이를 통해 각 모델 변형에 대해 별도의 훈련 실행이나 저장된 모델 가중치가 필요하지 않게 되었습니다. Star Elastic은 Nemotron Elastic 프레임워크를 기반으로 하며, Nemotron Nano v3에 적용되었습니다. 이 방법은 세 가지 변형을 단일 160B 토큰 실행에서 훈련하여, 각 모델을 처음부터 훈련하는 것에 비해 360배의 토큰 감소를 달성했습니다. 또한 Star Elastic은 탄력적인 예산 제어를 도입하여, 작은 서브 모델을 사고 과정에 사용하고 최종 답변에는 전체 모델을 사용하는 새로운 추론 방식을 제공합니다. 이로 인해 표준 예산 제어에 비해 최대 16% 더 높은 정확도와 1.9배 낮은 지연 시간을 기록했습니다. 중첩된 FP8 및 NVFP4 체크포인트는 RTX급 GPU에서 전체 모델 패밀리를 사용할 수 있도록 합니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자