병렬 트랙 트랜스포머: 감소된 동기화로 빠른 GPU 추론 가능케 함

대규모 트랜스포머 기반 대형 언어 모델(Large Language Models, LLMs)의 효율적인 추론은 엄격한 대기 및 처리량 목표를 충족시키기 위해 종종 복수 GPU 병렬 처리가 필요한 기본적인 시스템적인 도전 과제이다. 기존의 텐서 병렬화는 장치 간 행렬 연산을 분해하지만 상당한 GPU 간 동기화를 도입하여 통신 병목 현상과 확장성 저하를 야기한다. 이에 우리는 병렬 트랙(Parallel Track, PT) 트랜스포머를 제안한다. PT 트랜스포머는 계산을 재구성하여 교차 장치 종속성을 최소화하고 최대 16배의 성능 향상을 달성한다. PT 트랜스포머는 효율적인 행렬 및 어텐션 연산을 위해 계산을 단순화하는 집중적인 방식으로 설계되었다. 또한 PT는 특정 효율적인 구현을 통해 향상된 확장성과 추론 성능을 제공한다. PT 트랜스포머는 빠른 GPU 추론과 효율적인 스케일링을 가능케 함으로써 대형 언어 모델의 추론에 있어 혁신적인 솔루션을 제시한다.
출처: Apple
요약번역: 미주투데이 서현진 기자