텐센트 훈원, 고성능 LLM 추론 오퍼레이터 라이브러리 HPC-Ops 공개
텐센트 훈원이 HPC-Ops를 공개했다. 이는 대규모 언어 모델 추론 아키텍처 장치를 위한 제작용 오퍼레이터 라이브러리로, Attention, Grouped GEMM, Fused MoE와 같은 핵심 오퍼레이터를 위한 낮은 수준의 CUDA 커널에 초점을 맞추고 있다. HPC-Ops는 기존 추론 스택에 통합할 수 있도록 간결한 C 및 Python API를 통해 이러한 오퍼레이터를 노출시킨다. 대규모 GPU를 활용한 모델 추론 성능을 극대화하기 위해 설계된 HPC-Ops는 빠른 속도와 효율적인 메모리 사용을 제공한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자