MixAtlas: 다중 모달 LLM 중간 훈련을 위한 불확실성 인식 데이터 혼합 최적화

MixAtlas는 ICLR 2026에서 열린 ‘기초 모델을 위한 데이터 문제 탐색 및 해결 워크숍(NADPFM)’에서 채택된 연구로, 데이터 혼합 최적화의 중요성을 강조합니다. 기존의 다중 모달 훈련 방식은 데이터 형식이나 작업 유형과 같은 단일 관점에서 혼합을 조정하는 데 그쳤습니다. 그러나 MixAtlas는 체계적인 도메인 분해와 소규모 프록시 모델을 통해 컴퓨팅 효율적인 다중 모달 혼합 최적화를 위한 원칙적인 프레임워크를 제시합니다. 이를 통해 샘플 효율성과 하위 일반화 성능을 크게 향상시킬 수 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자