DeepSeek AI, DeepSeek-V4 출시: 백만 토큰 컨텍스트를 가능하게 하는 압축 희소 주의 및 강력한 압축 주의 기술

DeepSeek AI는 DeepSeek-V4 시리즈의 미리보기 버전을 발표했습니다. 이 시리즈는 두 가지 Mixture-of-Experts(MoE) 언어 모델로 구성되어 있으며, 백만 토큰 컨텍스트 창을 실용적이고 경제적으로 만드는 것을 목표로 하고 있습니다. DeepSeek-V4-Pro 모델은 총 1.6조 개의 매개변수를 가지고 있으며, 토큰당 490억 개가 활성화됩니다. 반면, DeepSeek-V4-Flash 모델은 총 2840억 개의 매개변수를 가지고 있으며, 토큰당 130억 개가 활성화됩니다. 이러한 모델들은 인퍼런스 시에 효율성을 높이기 위해 설계되었습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자