QeRL: NVFP4-Quantized Reinforcement Learning (RL)가 32B LLM 트레이닝을 단일 H100으로 가져오면서 탐사 향상
NVIDIA 연구진은 MIT, HKU, Tsinghua과 협력하여 오픈소스 QeRL(Quantization-enhanced Reinforcement Learning)을 소개했다. 이 프레임워크는 4비트 FP4로 강화 학습(Reinforcement Learning) 후 훈련을 밀어넣는다. 이 방법은 32B LLM에서 단일 H100에서 4비트 NVFP4에서 RL 후 훈련을 실행할 수 있다. 이는 BF16 수준의 정확성과 1.2~1.5배의 속도 향상을 제공한다. 이런 혁신적인 기술은 탐사 능력을 향상시키면서 효율성을 높인다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자