PORTool: 도구 통합 추론을 위한 중요도 인식 정책 최적화

PORTool은 다수의 도구를 통합하여 자연어 추론과 외부 도구 호출을 결합한 LLM 기반 에이전트가 복잡한 작업을 해결할 수 있도록 돕는 알고리즘입니다. 기존의 결과 기반 보상 방식은 성공이나 실패로 이어지는 중간 단계의 결정이 모호해지는 문제를 안고 있습니다. PORTool은 이러한 문제를 해결하기 위해 중요도 인식 정책 최적화 알고리즘을 제안합니다. 이 알고리즘은 결과 수준의 감독을 통해 에이전트의 도구 사용 능력을 강화하며, 각 단계에서 보상을 부여하여 에이전트가 어떤 결정이 성공으로 이어지는지를 명확히 할 수 있도록 합니다.
출처: Apple
요약번역: 미주투데이 서현진 기자