스탠포드 연구진이 발표한 AgentFlow: 모듈식, 도구 사용 AI 에이전트를 위한 In-the-Flow 강화 학습 RL
Stanford Researchers가 최근 발표한 AgentFlow는 Planner, Executor, Verifier, Generator라는 네 가지 모듈로 구성된 훈련 가능한 에이전트 프레임워크이다. 이 프레임워크는 명시적 메모리와 도구 세트에 의해 조정되며, Planner는 새로운 온-폴리시 방법인 Flow-GRPO를 통해 최적화된다. 이 방법은 트라젝토리 수준의 결과 보상을 모든 턴에 방송하고, KL 정규화 및 그룹 정규화된 어드밴티지를 적용하는 토큰 수준의 PPO 스타일 업데이트를 수행한다. 이 에이전트는 십 가지 벤치마크에서 성능을 테스트했고, 기존 방법보다 향상된 결과를 보였다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자