구글 AI, 지도 강화 학습 (SRL) 공개: 전문가 궤적을 통해 작은 언어 모델에 어려운 문제 해결 능력 가르치기

구글 클라우드 AI 연구팀과 UCLA 연구원들이 새로운 훈련 프레임워크 ‘지도 강화 학습’ (SRL)을 발표했습니다. 이 프레임워크는 작은 모델이 현재 실패하는 작업을 어떻게 학습할 수 있는지에 대한 질문을 다룹니다. 이 프레임워크를 통해 7B 규모의 모델들이 매우 어려운 수학 및 에이전트 작업에서 실제로 학습할 수 있게 되었습니다. 이는 단순한 암기나 올바른 롤아웃에 의존하지 않고 문제를 해결할 수 있는 능력을 키워줍니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자