NVIDIA AI, Nemotron-Elastic-12B 발표: 추가 훈련 비용 없이 6B/9B/12B 변형 제공하는 단일 AI 모델

AI 개발팀이 다양한 배포 요구에 맞춰 여전히 여러 대규모 언어 모델을 훈련하고 저장할 때, 하나의 탄력 있는 모델이 동일 비용으로 여러 크기의 모델을 생성할 수 있는 이유는 무엇인가? NVIDIA는 일반적인 ‘모델 패밀리’ 스택을 단일 훈련 작업으로 축소시키고 있다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 중첩된 12B 파라미터 추론 모델을 내장하고 있다. 이 모델은 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다. 이를 통해 AI 모델의 효율성과 유연성이 향상되었다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자