NVIDIA AI가 효율적 추론을 위해 Nemotron-3-Nano-30B를 NVFP4로 Quantization Aware Distillation(QAD)과 함께 도입

NVIDIA가 Nemotron-Nano-3-30B-A3B-NVFP4를 출시했다. 이 모델은 4비트 NVFP4 형식에서 30B 매개변수 추론 모델을 실행하며 정확도를 BF16 기준에 가깝게 유지한다. 이 모델은 NVFP4 배포를 위해 특별히 설계된 Quantization Aware Distillation(QAD) 레시피와 혼합 Mamba2 Transformer Mixture of Experts 아키텍처를 결합한 것이다. 전반적으로 이는 매우 효율적이다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자