Meta AI의 ‘Early Experience’는 보상 없이 언어 에이전트를 훈련하고 모방 학습을 능가합니다
Meta Superintelligence Labs는 ‘Early Experience’라는 새로운 보상 없는 훈련 방법을 제안했습니다. 이 방법은 큰 인간 데모 세트나 강화 학습 없이도 언어 에이전트의 정책 학습을 개선합니다. 이 방법은 모방 학습을 능가하며 여덟 가지 벤치마크에서 성능을 향상시켰습니다. 이러한 혁신적인 방법은 언어 모델 및 기계 학습 분야에 새로운 가능성을 제시하고 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자