2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
oLLM 만나보기: 8 GB 소비자 GPU로 100K-컨텍스트 LLM 추론을 SSD 오프로드를 통해 제공하는 가벼운 Python 라이브러리—양자화 불필요
발행일: 2025년 9월 29일 오후 1시 43분

oLLM은 Huggingface Transformers와 PyTorch를 기반으로 한 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용하여 VRAM을 8-10 사이로 유지합니다. FlashAttention-2 및 디스크 기반 KV 캐싱을 활용합니다. 자세한 내용은 원문을 참고하세요.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자