
레이블 없이 학습 가능한 LLMs: Tsinghua 대학과 상해 AI 연구소 연구진, 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 하는 테스트 시간 강화 학습(TTRL) 소개
대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.












