텐센트, 훈유안-A13B 공개: 이중 모드 추론과 256K 컨텍스트를 갖춘 13B 액티브 파라미터 MoE 모델

텐센트의 훈유안 팀은 희소 MoE(Mixture-of-Experts) 아키텍처를 기반으로 한 새로운 오픈소스 대형 언어 모델인 훈유안-A13B를 소개했다. 이 모델은 80억 개의 총 파라미터로 구성되어 있지만 추론 중에는 13억 개만 활성화되어 성능과 계산 비용 사이에 뛰어난 균형을 제공한다. 또한 그룹화된 쿼리 어텐션 (GQA), 256K 컨텍스트 길이 등을 지원하여 다양한 언어 처리 작업에 적합하다. 훈유안-A13B는 이중 모드 추론을 지원하며, 전체 모델 크기 대비 활성화된 파라미터의 비율이 높아 효율적인 모델이다. 모델의 특징은 매우 긴 문맥을 처리하는 데 적합하며, 다양한 자연어 처리 작업에 적용할 수 있다. 이러한 모델은 연구 및 산업 응용 분야에서 활용될 수 있을 것으로 기대된다.
#AgenticAI #ArtificialIntelligence #EditorsPick #LanguageModel #NewReleases #OpenSource #Technology #VisionLanguageModel
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자