과업별로 직교하는 진실의 기하학

대형 언어 모델(LLMs)은 다양한 작업에서 인상적인 일반화 능력을 보여주고 있지만, 그 신뢰성에 대한 우려로 여전히 실용적인 중요성을 주장하고 있다. 최근 연구들은 언어 모델의 활성화를 검토하여 추론 시 모델이 생성하는 활성화를 확인함으로써 모델이 질문에 올바른 답을 제공하는지를 평가하는 것을 제안했다. 일부 연구는 예시를 통해 올바른 답변을 생성하는 활성화를 구별할 수 있는 “진실의 기하학”이 학습될 수 있다고 주장한다.
출처: Apple
요약번역: 미주투데이 서현진 기자