LLM-as-a-Judge: 신호가 끊기는 곳, 언제 유지되고, “평가”는 무엇을 의미해야 하는가?
언어모델(Language Model)을 판사로 사용할 때 1부터 5까지의 점수(또는 pairwise)를 할당할 때 정확히 무엇이 측정되는 것인가? 대부분의 “정확성/신뢰성/완전성” 평가 기준은 프로젝트별로 다르다. 작업 기반 정의 없이 스칼라 점수는 비즈니스 결과(예: “유용한 마케팅 게시물” vs “높은 완전성”)에서 벗어날 수 있다. LLM-as-a-judge(LAJ) 조사는 평가 기준의 모호함과 프롬프트 템플릿 선택이 점수와 인간에게 영향을 준다고 언급하고 있다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자