2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델
발행일: 2025년 5월 10일 오후 8시 11분

희소한 대형 언어 모델(Large Language Models, LLMs)은 Mixture of Experts (MoE) 프레임워크를 기반으로 하며, 토큰 당 매개변수의 하위 집합만 활성화하여 효율적으로 확장할 수 있는 능력으로 인해 주목받고 있다. 이러한 동적 희소성을 통해 MoE 모델은 높은 표현 능력을 유지하면서 토큰 당 계산을 제한할 수 있다. 그러나 이러한 모델들의 복잡성과 크기가 증가함에 따라, 화웨이는 Pangu Ultra MoE를 소개하며 Ascend NPUs에서 효율적으로 훈련시키는 방법을 소개했다. 이 모델은 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 통해 훈련되었으며, 718B-파라미터의 희소 언어 모델로서 혁신적인 성능을 보여준다.

<Mark Tech Post 뉴스 본문 전체읽기>

출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자