DeepSeek 연구진, 1967년 매트릭스 정규화 알고리즘을 적용하여 하이퍼 연결의 불안정성 해결

DeepSeek 연구진은 대형 언어 모델 교육에서 발생하는 정확한 문제를 해결하려고 노력하고 있다. 잔여 연결은 매우 깊은 네트워크를 교육 가능하게 만들었고, 하이퍼 연결은 해당 잔여 스트림을 확장시켰으며, 그 결과로 교육이 규모에 따라 불안정해졌다. 새로운 방법인 mHC(Manifold Constrained Hyper Connections)은 하이퍼 연결의 풍부한 토폴로지를 유지하면서 섞임 행동을 제한함으로써 안정성을 개선한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자