이 튜토리얼에서는 현대 RAG 시스템이 임베딩을 분산 스토리지 노드에 샤딩하는 방식을 반영하는 탄성 벡터 데이터베이스 시뮬레이터를 구축한다. 시스템이 확장될수록 균형 잡힌 배치와 최소한의 재배치를 보장하기 위해 가상 노드로 일관된 해싱을 구현한다. 해싱 링을 실시간으로 시각화하고 노드를 대화식으로 추가하거나 제거한다.
최신뉴스 전체보기

대규모 언어 모델(Large Language Models, LLMs)을 대규모로 제공하는 것은 키-값(Key-Value, KV) 캐시 관리로 인해 엄청난 공학적 도전이다. NVIDIA 연구진은 KVTC(KV Transform Coding)를 소개하여 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축했다.
Microsoft의 Maia 200은 Azure 데이터센터에서 사용되는 새로운 AI 가속기로, 좁은 정밀도 컴퓨팅, 밀도 높은 칩 내 메모리 계층, 이더넷 기반 확장 패브릭을 결합하여 대형 언어 모델 및 추론 워크로드의 토큰 생성 비용을 타겟팅한다. Microsoft이 전용 추론 칩을 만든 이유는 무엇인가?

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.
구글과 MediaTek의 새 LiteRT NeuroPilot 가속기는 실제 생성 모델을 폰, 랩탑 및 IoT 하드웨어에서 데이터 센터로 요청을 보내지 않고 실행할 수 있는 구체적인 단계입니다. 기존의 LiteRT 런타임을 채택하여 MediaTek의 NeuroPilot NPU 스택에 직접 연결하여 개발자가 LLMs와 임베딩 모델을 배포할 수 있습니다.

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 ‘Seer’를 소개했다.

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

대형 언어 모델은 훈련보다는 실제 트래픽 하에서 토큰을 빠르고 저렴하게 제공하는 방법에 더 많은 제약을 받는다. 이는 런타임이 요청을 일괄 처리하는 방식, 프리필과 디코드를 어떻게 중첩시키는지, KV 캐시를 어떻게 저장하고 재사용하는지에 달려 있다. 서로 다른 엔진들은 서로 다른 절충안을 제공한다.
MLPerf 추론은 하드웨어, 런타임 및 서빙 스택으로 구성된 완전한 시스템이 정해진 지연 시간과 정확도 제약 조건 하에 사전 훈련된 모델을 얼마나 빠르게 실행하는지 측정합니다. Datacenter 및 Edge 스위트에 대한 결과는 LoadGen에 의해 생성된 표준화된 요청 패턴(“시나리오”)으로 보고되며, 이는 아키텍처 중립성과 재현성을 보장합니다.
IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.
MIT 연구진은 LEGO를 소개했는데, 이는 텐서 워크로드를 사용하여 공간 가속기에 대한 합성 가능한 RTL을 자동으로 생성하는 컴파일러와 유사한 프레임워크이다. LEGO는 손으로 템플릿을 작성할 필요 없이 텐서 워크로드와 데이터 흐름을 표현하고, 재사용을 위해 FU (기능 장치) 인터커넥트 및 on-chip 메모리 레이아웃을 구축하며, 여러 작업을 퓨징하는 기능을 지원한다.
AI의 빠른 세계에서 대형 언어 모델(LLMs)은 챗봇부터 코드 어시스턴트까지 모든 것을 구동한다. 그러나 당신의 LLM 추론은 응답 생성 과정이 최대 5배 더 느릴 수 있다. 이유는 출력 길이의 불확실성을 다루는 너무 조심스러운 방식 때문이다.
GPU와 TPU는 대규모 트랜스포머 모델 학습을 가속화하는 데 중요한 역할을 하지만, 핵심 아키텍처, 성능 프로필 및 생태계 호환성의 차이로 인해 사용 사례, 속도, 유연성에 중요한 영향을 미친다. TPUs는 구글이 고도로 효율적인 행렬 연산을 위해 특별히 제작한 사용자 정의 ASIC(특정 응용 프로그램 통합 회로)이며, 핵심 아키텍처와 하드웨어 기초가 다르다.
입자 기반 시뮬레이션과 포인트 클라우드 응용 프로그램은 과학 및 상업 데이터 집합의 크기와 복잡성을 대규모로 확장시키고 있으며, 이를 효율적으로 축소, 저장 및 분석하는 것은 현대 GPU의 병목 현상을 방지하는 것이다. 이는 우주학, 지질학과 같은 분야에서 신흥 대규모 도전 과제 중 하나이다.
2025년을 기준으로 AI 추론에 대한 기술적인 심층 탐구를 제공하며, 모델 훈련과 실제 응용 프로그램 간의 연결을 담당하는 추론의 핵심 기능에 대해 다룹니다. 현대 모델의 지연 문제와 최적화 전략과 같은 주제를 다룹니다.
AI와 기계 학습 워크로드는 전통적인 CPU가 제공하는 것 이상의 계산 가속화를 촉진하여 특화된 하드웨어의 발전을 이끌었습니다. 각각의 처리 장치인 CPU, GPU, NPU, TPU는 AI 생태계에서 특정 모델, 응용 프로그램 또는 환경에 최적화되어 독특한 역할을 합니다. 이들의 주요 차이와 최상의 사용 사례에 대한 기술적이고 데이터 주도적인 분석을 제공합니다.
아마존 연구진이 뇌가 특정 작업을 위해 특수 영역을 사용하는 것과 유사하게 작업 관련 뉴런만 선택하여 추론 시간을 30% 단축하는 새로운 AI 아키텍처를 개발했다. 이 혁신적인 방법은 대규모 AI 모델이 직면한 가장 큰 문제 중 하나인 모든 요청마다 모든 뉴런을 활성화하는 데 필요한 계산 비용과 지연 시간을 해결한다.
2025년에 글로벌 프록시 시장이 급속히 확장되고 있으며, 산업은 2.5조 달러로 평가되며 주거용 프록시에 대한 폭발적인 수요, AI를 위한 실시간 데이터 수집, 클라우드 기반 프록시 서비스의 성장 등으로 18%의 견고한 연평균 성장률을 나타냅니다.

Meta가 KernelLLM을 소개했습니다. 이는 PyTorch 모듈을 효율적인 Triton GPU 커널로 번역하는 8억 개의 파라미터를 가진 언어 모델로, GPU 프로그래밍의 장벽을 낮추기 위한 노력입니다.

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.


