GRASP: 세계 모델을 위한 경량 기반 계획 기법

GRASP는 긴 시간 동안의 계획을 실용적으로 가능하게 하는 새로운 경량 기반 계획 기법입니다. 이 방법은 (1) 궤적을 가상 상태로 끌어올려 최적화를 시간에 걸쳐 병렬로 수행하고, (2) 탐색을 위해 상태 반복에 확률성을 직접 추가하며, (3) 행동이 깨지기 쉬운 ‘상태-입력’ 기울기를 피하면서 깨끗한 신호를 받을 수 있도록 기울기를 재형성합니다. 이러한 접근 방식은 현대의 세계 모델이 여전히 취약한 긴 시간 계획 문제를 해결하기 위해 개발되었습니다.
대규모 학습된 세계 모델은 고차원 시각 공간에서 미래 관측의 긴 시퀀스를 예측할 수 있으며, 몇 년 전에는 상상하기 어려웠던 방식으로 작업 간 일반화가 가능해지고 있습니다. 그러나 강력한 예측 모델을 갖는 것과 이를 효과적으로 제어/학습/계획하는 것은 별개의 문제입니다. 실제로 현대의 세계 모델을 사용한 긴 시간 계획은 여전히 취약하며, 최적화가 불안정해지고 비탐욕적 구조가 나쁜 지역 최소값을 생성하며, 고차원 잠재 공간이 미세한 실패 모드를 도입합니다.
GRASP는 이러한 문제를 해결하기 위해 설계되었으며, 긴 시간 계획을 위한 안정적이고 효과적인 방법을 제공합니다. 이 방법은 깊은 학습 기반의 세계 모델에서 발생할 수 있는 민감한 상태-입력 기울기 문제를 피하면서도 최적화를 가능하게 합니다. GRASP는 앞으로의 세계 모델 계획에서 중요한 역할을 할 것으로 기대됩니다.
요약번역: 미주투데이 임한결 기자