너무 많은 사고는 LLMs를 깰 수 있다: 테스트 시간 계산의 역 스케일링
최근 대형 언어 모델(LLMs)의 발전으로 모델이 추론 중에 ‘더 오래 생각하게’ 함으로써 일반적으로 정확도와 견고성이 향상된다는 아이디어가 증가했다. 체인 오브 씽킹 프롬프팅, 단계별 설명, 그리고 ‘테스트 시간 계산’을 증가시키는 것과 같은 실천은 이제 이 분야의 표준 기술이 되었다. 그러나 Anthropics이 주도한 연구 “테스트 시간 계산의 역 스케일링”은 강력한 반론을 제시한다. 이 연구는 모델이 더 오래 사고할수록 정확도가 떨어질 수 있다는 것을 보여준다. 자세한 내용은 링크를 참고하시기 바랍니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자