오프라인에서 보수적인 Q-Learning을 사용하여 안전 중요한 강화 학습 에이전트를 훈련시키는 코딩 구현
이 튜토리얼에서는 고정된 오프라인 데이터로만 학습하는 안전 중요한 강화 학습 파이프라인을 구축한다. 사용자 정책에서 행동 데이터셋을 생성하고, d3rlpy를 사용하여 행동 복제 기준선과 보수적인 Q-Learning 에이전트를 모두 훈련시킨다. 이러한 워크플로우를 오프라인 데이터 중심으로 구성함으로써 라이브 탐사 대신 안전한 강화 학습을 가능하게 한다. 자세한 내용은 링크를 참고해주시기 바랍니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자