Harness-1: 20억 매개변수의 강화 학습 기반 검색 서브 에이전트 소개

UIUC와 Chroma가 공동 개발한 Harness-1은 20억 매개변수로 구성된 검색 서브 에이전트입니다. 이 시스템은 강화 학습을 통해 훈련되었으며, 상태를 유지하는 검색 하네스 내에서 작동합니다. 하네스는 후보 풀, 중요 태그가 부여된 큐레이션 세트, 증거 그래프, 검증 기록 등을 관리하여 검색, 큐레이션, 검증 및 중단 시점을 결정하는 정책을 지원합니다. Harness-1은 8개의 벤치마크에서 평균 0.730의 큐레이션 리콜을 기록하며, 다음 개방형 서브 에이전트보다 11.4점 높은 성과를 보였습니다. 이 시스템은 Opus-4.6에 이어 두 번째로 높은 성능을 자랑합니다. 또한, 이 시스템의 가중치와 하네스 코드는 공개되어 있어 누구나 접근할 수 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자