NVIDIA 연구, NeMo RL에서의 추측적 디코딩으로 1.8배 롤아웃 생성 속도 향상

NVIDIA 연구팀이 발표한 새로운 논문에 따르면, NeMo RL에 vLLM 백엔드를 활용한 추측적 디코딩을 직접 통합하여 손실 없는 롤아웃 가속화를 이뤘다고 전했다. 이 연구는 8B 모델에서 1.8배의 롤아웃 생성 속도 향상을 달성했으며, 235B 모델에서는 2.5배의 종단 간 속도 향상이 예상된다고 밝혔다. 이러한 기술은 인공지능 모델의 효율성을 크게 개선할 것으로 기대된다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자