미래를 향한 사고: 트랜스포머를 위한 잠재적 선행 훈련

이 논문은 ICLR 2026에서 열린 ‘잠재적 및 암시적 사고’ 워크숍에서 발표된 내용을 다루고 있습니다. 오토회귀 언어 모델은 다음 토큰 예측을 통해 텍스트를 생성하는 방식으로 작동합니다. 이 모델은 한 번에 하나의 이산 토큰을 샘플링하여 텍스트를 생성하지만, 이 과정에서 모델이 매 단계에서 결정을 내려야 하므로 여러 가능한 연속성을 탐색하거나 반영하는 데 제약이 있습니다. 또한, 각 토큰에 대한 계산 자원 배분이 균일하게 이루어져, 어려운 토큰의 경우 모델의 표현력이 제한될 수 있습니다. 이러한 한계를 극복하기 위한 새로운 접근 방식이 필요하다는 점을 강조하고 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자