SWE-Gym를 활용한 소프트웨어 엔지니어링 에이전트와 검증자의 훈련

SWE-Gym은 소프트웨어 엔지니어링 에이전트를 훈련하기 위한 첫 환경으로 소개됩니다. 이 환경에는 각각이 자연어로 지정된 작업, 실행 가능한 런타임 환경, 단위 테스트가 포함된 2,438개의 실제 Python 작업 인스턴스가 있습니다. SWE-Gym을 사용하여 언어 모델 기반 SWE 에이전트를 훈련하여 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 최대 19%의 절대 성과 향상을 이룩했습니다. 또한 SWE-Gym에서 샘플링된 에이전트 트라젝토리로 훈련된 검증자를 통해 추론 시간 스케일링 실험도 진행했습니다. 세밀하게 튜닝된 SWE와…(중략)
출처: Apple
요약번역: 미주투데이 서현진 기자