AI 인프라 보관 - 미주투데이

RAG 시스템을 위한 일관된 해싱, 샤딩, 실시간 링 시각화를 이용한 탄성 벡터 데이터베이스 구축하는 방법

이 튜토리얼에서는 현대 RAG 시스템이 임베딩을 분산 스토리지 노드에 샤딩하는 방식을 반영하는 탄성 벡터 데이터베이스 시뮬레이터를 구축한다. 시스템이 확장될수록 균형 잡힌 배치와 최소한의 재배치를 보장하기 위해 가상 노드로 일관된 해싱을 구현한다. 해싱 링을 실시간으로 시각화하고 노드를 대화식으로 추가하거나 제거한다.

2026년 2월 25일 오후 9시 58분

NVIDIA 연구진, 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축하는 KVTC 변환 코딩 파이프라인 소개

대규모 언어 모델(Large Language Models, LLMs)을 대규모로 제공하는 것은 키-값(Key-Value, KV) 캐시 관리로 인해 엄청난 공학적 도전이다. NVIDIA 연구진은 KVTC(KV Transform Coding)를 소개하여 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축했다.

2026년 2월 10일 오후 11시 38분

Microsoft, Azure 데이터센터용 FP4 및 FP8 최적화 AI 추론 가속기 Maia 200 공개

Microsoft의 Maia 200은 Azure 데이터센터에서 사용되는 새로운 AI 가속기로, 좁은 정밀도 컴퓨팅, 밀도 높은 칩 내 메모리 계층, 이더넷 기반 확장 패브릭을 결합하여 대형 언어 모델 및 추론 워크로드의 토큰 생성 비용을 타겟팅한다. Microsoft이 전용 추론 칩을 만든 이유는 무엇인가?

2026년 1월 30일 오전 4시 01분

OpenAI가 'circuit-sparsity'를 발표: Activation Bridges를 통해 Weight Sparse 모델과 밀집 베이스라인을 연결하는 오픈 도구 세트

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. 'Weight-sparse transformers have interpretable circuits' 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

2025년 12월 14일 오후 12시 01분

구글 LiteRT NeuroPilot 스택, MediaTek Dimensity NPUs를 장치 내 LLM의 첫 번째 대상으로 전환

구글과 MediaTek의 새 LiteRT NeuroPilot 가속기는 실제 생성 모델을 폰, 랩탑 및 IoT 하드웨어에서 데이터 센터로 요청을 보내지 않고 실행할 수 있는 구체적인 단계입니다. 기존의 LiteRT 런타임을 채택하여 MediaTek의 NeuroPilot NPU 스택에 직접 연결하여 개발자가 LLMs와 임베딩 모델을 배포할 수 있습니다.

2025년 12월 10일 오전 3시 21분

Moonshot AI 연구자들, Seer 소개: 빠른 동기화 강화 학습 RL 롤아웃을 위한 온라인 콘텍스트 학습 시스템

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 'Seer'를 소개했다.

2025년 11월 23일 오후 3시 28분

Perplexity AI, 기존 GPU 클러스터에서 1조 매개변수 LLMs 실행 가능한 TransferEngine 및 pplx garden 공개

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

2025년 11월 21일 오후 7시 56분

2025년 LLM 서빙을 위한 상위 6개 추론 런타임 비교

대형 언어 모델은 훈련보다는 실제 트래픽 하에서 토큰을 빠르고 저렴하게 제공하는 방법에 더 많은 제약을 받는다. 이는 런타임이 요청을 일괄 처리하는 방식, 프리필과 디코드를 어떻게 중첩시키는지, KV 캐시를 어떻게 저장하고 재사용하는지에 달려 있다. 서로 다른 엔진들은 서로 다른 절충안을 제공한다.

2025년 11월 7일 오전 5시 12분

MLPerf Inference v5.1 (2025): GPU, CPU 및 AI 가속기에 대한 결과 설명

MLPerf 추론은 하드웨어, 런타임 및 서빙 스택으로 구성된 완전한 시스템이 정해진 지연 시간과 정확도 제약 조건 하에 사전 훈련된 모델을 얼마나 빠르게 실행하는지 측정합니다. Datacenter 및 Edge 스위트에 대한 결과는 LoadGen에 의해 생성된 표준화된 요청 패턴("시나리오")으로 보고되며, 이는 아키텍처 중립성과 재현성을 보장합니다.

2025년 10월 1일 오전 5시 38분

IBM과 ETH 취리히 연구진, 인메모리 AI 하드웨어의 노이즈 대응을 위한 아날로그 퍼운데이션 모델 발표

IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.

2025년 9월 21일 오전 4시 12분

MIT의 LEGO: AI 칩을 위한 컴파일러, 자동으로 빠르고 효율적인 공간 가속기 생성

MIT 연구진은 LEGO를 소개했는데, 이는 텐서 워크로드를 사용하여 공간 가속기에 대한 합성 가능한 RTL을 자동으로 생성하는 컴파일러와 유사한 프레임워크이다. LEGO는 손으로 템플릿을 작성할 필요 없이 텐서 워크로드와 데이터 흐름을 표현하고, 재사용을 위해 FU (기능 장치) 인터커넥트 및 on-chip 메모리 레이아웃을 구축하며, 여러 작업을 퓨징하는 기능을 지원한다.

2025년 9월 18일 오후 8시 13분

당신의 LLM은 이야말로 그것이 고쳐져야 하는 것보다 5배 더 느리다. 그 이유는? 비관주의 - 그리고 스탠포드 연구진이 방법을 보여주었다

AI의 빠른 세계에서 대형 언어 모델(LLMs)은 챗봇부터 코드 어시스턴트까지 모든 것을 구동한다. 그러나 당신의 LLM 추론은 응답 생성 과정이 최대 5배 더 느릴 수 있다. 이유는 출력 길이의 불확실성을 다루는 너무 조심스러운 방식 때문이다.

2025년 8월 26일 오전 3시 08분

대규모 트랜스포머 모델 학습 시 GPU와 TPU의 차이는 무엇인가요? 벤치마크를 통한 최고의 GPU와 TPU

GPU와 TPU는 대규모 트랜스포머 모델 학습을 가속화하는 데 중요한 역할을 하지만, 핵심 아키텍처, 성능 프로필 및 생태계 호환성의 차이로 인해 사용 사례, 속도, 유연성에 중요한 영향을 미친다. TPUs는 구글이 고도로 효율적인 행렬 연산을 위해 특별히 제작한 사용자 정의 ASIC(특정 응용 프로그램 통합 회로)이며, 핵심 아키텍처와 하드웨어 기초가 다르다.

2025년 8월 25일 오전 4시 11분

GPZ: 대규모 입자 데이터를 위한 차세대 GPU 가속 손실 압축기

입자 기반 시뮬레이션과 포인트 클라우드 응용 프로그램은 과학 및 상업 데이터 집합의 크기와 복잡성을 대규모로 확장시키고 있으며, 이를 효율적으로 축소, 저장 및 분석하는 것은 현대 GPU의 병목 현상을 방지하는 것이다. 이는 우주학, 지질학과 같은 분야에서 신흥 대규모 도전 과제 중 하나이다.

2025년 8월 24일 오전 1시 57분

AI 추론이란 무엇인가? 기술적인 심층 탐구 및 2025년 판매자 상위 9곳

2025년을 기준으로 AI 추론에 대한 기술적인 심층 탐구를 제공하며, 모델 훈련과 실제 응용 프로그램 간의 연결을 담당하는 추론의 핵심 기능에 대해 다룹니다. 현대 모델의 지연 문제와 최적화 전략과 같은 주제를 다룹니다.

2025년 8월 18일 오전 1시 55분

AI/ML을 위한 CPU, GPU, NPU, TPU의 궁극적인 가이드: 성능, 사용 사례 및 주요 차이점

AI와 기계 학습 워크로드는 전통적인 CPU가 제공하는 것 이상의 계산 가속화를 촉진하여 특화된 하드웨어의 발전을 이끌었습니다. 각각의 처리 장치인 CPU, GPU, NPU, TPU는 AI 생태계에서 특정 모델, 응용 프로그램 또는 환경에 최적화되어 독특한 역할을 합니다. 이들의 주요 차이와 최상의 사용 사례에 대한 기술적이고 데이터 주도적인 분석을 제공합니다.

2025년 8월 3일 오전 6시 38분

아마존 연구진이 뇌가 특정 작업을 위해 특수 영역을 사용하는 것과 유사하게 작업 관련 뉴런만 선택하여 추론 시간을 30% 단축하는 새로운 AI 아키텍처를 개발했다. 이 혁신적인 방법은 대규모 AI 모델이 직면한 가장 큰 문제 중 하나인 모든 요청마다 모든 뉴런을 활성화하는 데 필요한 계산 비용과 지연 시간을 해결한다.

2025년 7월 29일 오전 12시 03분

2025년 최고 15+ 가장 저렴한 프록시 제공업체

2025년에 글로벌 프록시 시장이 급속히 확장되고 있으며, 산업은 2.5조 달러로 평가되며 주거용 프록시에 대한 폭발적인 수요, AI를 위한 실시간 데이터 수집, 클라우드 기반 프록시 서비스의 성장 등으로 18%의 견고한 연평균 성장률을 나타냅니다.

2025년 7월 22일 오전 3시 27분

Meta가 KernelLLM을 소개합니다: 효율적인 Triton GPU 커널로 PyTorch 모듈을 변환하는 8B LLM

Meta가 KernelLLM을 소개했습니다. 이는 PyTorch 모듈을 효율적인 Triton GPU 커널로 번역하는 8억 개의 파라미터를 가진 언어 모델로, GPU 프로그래밍의 장벽을 낮추기 위한 노력입니다.

2025년 5월 20일 오전 3시 36분

화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

2025년 5월 10일 오후 8시 11분

최신뉴스 전체보기

RAG 시스템을 위한 일관된 해싱, 샤딩, 실시간 링 시각화를 이용한 탄성 벡터 데이터베이스 구축하는 방법

2026년 2월 25일 오후 9시 58분

NVIDIA 연구진, 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축하는 KVTC 변환 코딩 파이프라인 소개

2026년 2월 10일 오후 11시 38분

Microsoft, Azure 데이터센터용 FP4 및 FP8 최적화 AI 추론 가속기 Maia 200 공개

2026년 1월 30일 오전 4시 01분

OpenAI가 ‘circuit-sparsity’를 발표: Activation Bridges를 통해 Weight Sparse 모델과 밀집 베이스라인을 연결하는 오픈 도구 세트

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

2025년 12월 14일 오후 12시 01분

구글 LiteRT NeuroPilot 스택, MediaTek Dimensity NPUs를 장치 내 LLM의 첫 번째 대상으로 전환

2025년 12월 10일 오전 3시 21분

Moonshot AI 연구자들, Seer 소개: 빠른 동기화 강화 학습 RL 롤아웃을 위한 온라인 콘텍스트 학습 시스템

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 ‘Seer’를 소개했다.

2025년 11월 23일 오후 3시 28분

Perplexity AI, 기존 GPU 클러스터에서 1조 매개변수 LLMs 실행 가능한 TransferEngine 및 pplx garden 공개

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

2025년 11월 21일 오후 7시 56분

2025년 LLM 서빙을 위한 상위 6개 추론 런타임 비교

2025년 11월 7일 오전 5시 12분

MLPerf Inference v5.1 (2025): GPU, CPU 및 AI 가속기에 대한 결과 설명

MLPerf 추론은 하드웨어, 런타임 및 서빙 스택으로 구성된 완전한 시스템이 정해진 지연 시간과 정확도 제약 조건 하에 사전 훈련된 모델을 얼마나 빠르게 실행하는지 측정합니다. Datacenter 및 Edge 스위트에 대한 결과는 LoadGen에 의해 생성된 표준화된 요청 패턴(“시나리오”)으로 보고되며, 이는 아키텍처 중립성과 재현성을 보장합니다.

2025년 10월 1일 오전 5시 38분

IBM과 ETH 취리히 연구진, 인메모리 AI 하드웨어의 노이즈 대응을 위한 아날로그 퍼운데이션 모델 발표

2025년 9월 21일 오전 4시 12분

MIT의 LEGO: AI 칩을 위한 컴파일러, 자동으로 빠르고 효율적인 공간 가속기 생성

2025년 9월 18일 오후 8시 13분

당신의 LLM은 이야말로 그것이 고쳐져야 하는 것보다 5배 더 느리다. 그 이유는? 비관주의 – 그리고 스탠포드 연구진이 방법을 보여주었다

2025년 8월 26일 오전 3시 08분

대규모 트랜스포머 모델 학습 시 GPU와 TPU의 차이는 무엇인가요? 벤치마크를 통한 최고의 GPU와 TPU

2025년 8월 25일 오전 4시 11분

GPZ: 대규모 입자 데이터를 위한 차세대 GPU 가속 손실 압축기

2025년 8월 24일 오전 1시 57분

AI 추론이란 무엇인가? 기술적인 심층 탐구 및 2025년 판매자 상위 9곳