QeRL: NVFP4-Quantized Reinforcement Learning (RL)가 32B LLM 트레이닝을 단일 H100으로 가져오면서 탐사 향상

발행일: 2025년 10월 16일 오전 12시 28분

NVIDIA 연구진은 MIT, HKU, Tsinghua과 협력하여 오픈소스 QeRL(Quantization-enhanced Reinforcement Learning)을 소개했다. 이 프레임워크는 4비트 FP4로 강화 학습(Reinforcement Learning) 후 훈련을 밀어넣는다. 이 방법은 32B LLM에서 단일 H100에서 4비트 NVFP4에서 RL 후 훈련을 실행할 수 있다. 이는 BF16 수준의 정확성과 1.2~1.5배의 속도 향상을 제공한다. 이런 혁신적인 기술은 탐사 능력을 향상시키면서 효율성을 높인다.

#AIPaperSummary #Applications #ArtificialIntelligence #Machinelearning #TechNews #Technology

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자