Nous Research, LLM 사전 훈련 속도 2.5배 향상하는 토큰 슈퍼포지션 트레이닝 발표

발행일: 2026년 5월 14일 오후 2시 46분

Nous Research가 발표한 토큰 슈퍼포지션 트레이닝(Token Superposition Training, TST)은 LLM(대형 언어 모델)의 사전 훈련 시간을 최대 2.5배 단축할 수 있는 두 단계의 훈련 방법이다. 이 방법은 첫 번째 단계에서 연속적인 토큰 임베딩을 평균화하여 가방 형태로 묶고, 두 번째 단계에서는 표준 다음 토큰 예측으로 되돌아가는 방식으로 진행된다. 이 과정에서 모델 아키텍처, 토크나이저, 옵티마이저, 추론 시간 행동은 변경되지 않는다. TST는 270M, 600M, 3B 밀집 모델 및 10B-A1B MoE 규모에서 검증되었다. 이 혁신적인 접근법은 LLM의 훈련 효율성을 크게 향상시킬 것으로 기대된다.

#AI인프라 #기계학습 #기술뉴스 #인공지능 #일면뉴스

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자

본 기사에 대한 의견을 공유해주세요.