AI에게 ‘모르겠다’라고 가르치기: 새로운 데이터셋이 강화 세밀 조정에서 환각을 줄입니다

강화 세밀 조정은 보상 신호를 사용하여 대형 언어 모델이 바람직한 동작을 하도록 안내합니다. 이 방법은 올바른 응답을 강화함으로써 모델이 논리적이고 구조화된 출력을 생성하는 능력을 강화합니다. 그러나 이러한 모델이 불완전하거나 오도하는 질문을 마주했을 때 응답하지 말아야 하는 시점을 알고 있는지 확인하는 것이 여전히 도전입니다. USC 연구진은 환각을 줄이기 위해 새로운 데이터셋 SUM (Synthetic Unanswerable Math)을 소개했습니다. 이 데이터셋은 LLMS(대형 언어 모델)에서 강화 세밀 조정을 통해 환각을 줄이는 데 도움이 됩니다. 자세한 내용은 링크를 참고하세요.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자