LaDiR: 잠재적 확산이 LLM의 텍스트 추론 능력을 향상시킨다

대형 언어 모델(LLM)은 연쇄적 사고(chain-of-thought, CoT) 생성을 통해 추론 능력을 보여줍니다. 그러나 LLM의 자기 회귀 디코딩 방식은 이전 토큰을 전체적으로 재방문하고 다듬는 능력을 제한할 수 있으며, 이는 다양한 솔루션을 탐색하는 데 비효율적일 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 LaDiR(잠재적 확산 추론기)라는 새로운 추론 프레임워크를 제안합니다. LaDiR는 연속적인 잠재 표현의 표현력과 잠재적 확산 모델의 반복적 정제 능력을 통합하여 기존 LLM의 성능을 향상시킵니다. 연구진은 먼저 구조화된 잠재적 추론 공간을 구축하여 LLM의 추론 과정을 개선하는 방법을 모색하고 있습니다.
출처: Apple
요약번역: 미주투데이 서현진 기자