COMPASS: 도구 중심 계획 및 선호도 최적화를 위한 Multi-Turn 벤치마크

실제 세상의 대형 언어 모델 (LLM) 에이전트는 복잡한 계획 작업을 돕기 위해 다중 턴 상호작용을 통해 전략적인 도구 사용과 사용자 선호도 최적화를 숙달해야 합니다. 우리는 COMPASS (Constrained Optimization through Multi-turn Planning and Strategic Solutions)를 소개합니다. 이는 에이전트를 현실적인 여행 계획 시나리오에서 평가하는 벤치마크로, 여행 계획을 제한된 선호도 최적화 문제로 캐스팅하여 에이전트가 강한 제약 조건을 만족하면서 동시에 사용자 선호도를 최적화해야 합니다. 이를 지원하기 위해 우리는 현실적인 여행 데이터베이스를 구축합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자