에피소드

경로를 이길 전에 산책로 타오르는 : 샘플 효율적인 몬테 카를로 계획

다음과 같이 바꿉니다. Jean-Bastien Grill

일반적으로 몬테카를로 계획이라고 하는 생성 모델을 통해서만 액세스할 수 있는 Markov MDP(의사 결정 프로세스)의 샘플링 기반 계획 문제를 연구합니다. 생성 모델에 대한 호출 횟수(예: 샘플 복잡성)를 최소화하면서 모든 상태에서 최적 값 함수의 적절한 추정치를 반환하는 것이 목표입니다. 상태 작업에서 다음 상태로의 한정된 또는 무한 수의 전환으로 MDP를 처리할 수 있는 새 알고리즘인 TrailBlazer를 제안합니다. TrailBlazer는 최적에 가까운 정책에 따라 연결할 수 있는 상태의 하위 집합만 탐색하여 민주당의 가능한 구조를 활용하는 적응 알고리즘입니다. 거의 최적 상태의 수량 측정값에 따라 달라지는 샘플 복잡성에 대한 범위를 제공합니다. 알고리즘 동작은 대체 최대화(작업 초과) 및 기대(다음 상태 이상)에 대한 몬테카를로 샘플링(예상 예측)의 확장으로 간주될 수 있습니다. 마지막으로 TrailBlazer의 또 다른 매력적인 기능은 구현이 간단하고 계산 효율적이라는 것입니다.