StreamTensor: PyTorch를 FPGA 데이터플로우를 통해 LLM 중간 단계를 스트리밍하는 가속 컴파일러
StreamTensor은 PyTorch의 Large Language Models (LLM) 그래프를 AMD의 Alveo U55C FPGA에서 스트림 스케줄된 데이터플로우 가속기로 변환하는 컴파일러이다. 이 시스템은 순환 텐서 (“itensor”) 유형을 도입하여 타일/순서를 인코딩한다. 이를 통해 LLM 추론을 DRAM에 배치된 커널로 처리하는 대신 데이터플로우 컴파일러가 타일을 온칩 FIFO 및 스트림 변환기를 통해 전달할 수 있다. StreamTensor은 GPT-2, Llama, Qwen, Gemma와 같은 PyTorch LLM 모델을 지원한다. 더 자세한 내용은 링크를 참고하자.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자