Episodio
Blazing the trail before beating the path: Sample-efficient Monte-Carlo planning
con Jean-Bastien Grill
Studiamo il problema di pianificazione basato sul campionamento nei processi decisionali di Markov (MDP) a cui è possibile accedere solo tramite un modello generativo, definito in genere pianificazione di Monte-Carlo. L'obiettivo è restituire una buona stima della funzione di valore ottimale in qualsiasi stato riducendo al minimo il numero di chiamate al modello generativo, ad esempio la complessità del campione. Viene proposto un nuovo algoritmo, TrailBlazer, in grado di gestire mdp con un numero finito o infinito di transizioni da stato-azione a stati successivi. TrailBlazer è un algoritmo adattivo che sfrutta le possibili strutture del MDP esplorando solo un subset di stati raggiungibili seguendo criteri quasi ottimali. Vengono forniti limiti sulla complessità del campione che dipendono da una misura della quantità di stati quasi ottimali. Il comportamento dell'algoritmo può essere considerato come un'estensione del campionamento Monte-Carlo (per stimare un'aspettativa) a problemi che alternano la massimazione (sulle azioni) e le aspettative (oltre gli stati successivi). Infine, un'altra caratteristica interessante di TrailBlazer è che è semplice implementare ed efficiente dal punto di vista computazionale.
Studiamo il problema di pianificazione basato sul campionamento nei processi decisionali di Markov (MDP) a cui è possibile accedere solo tramite un modello generativo, definito in genere pianificazione di Monte-Carlo. L'obiettivo è restituire una buona stima della funzione di valore ottimale in qualsiasi stato riducendo al minimo il numero di chiamate al modello generativo, ad esempio la complessità del campione. Viene proposto un nuovo algoritmo, TrailBlazer, in grado di gestire mdp con un numero finito o infinito di transizioni da stato-azione a stati successivi. TrailBlazer è un algoritmo adattivo che sfrutta le possibili strutture del MDP esplorando solo un subset di stati raggiungibili seguendo criteri quasi ottimali. Vengono forniti limiti sulla complessità del campione che dipendono da una misura della quantità di stati quasi ottimali. Il comportamento dell'algoritmo può essere considerato come un'estensione del campionamento Monte-Carlo (per stimare un'aspettativa) a problemi che alternano la massimazione (sulle azioni) e le aspettative (oltre gli stati successivi). Infine, un'altra caratteristica interessante di TrailBlazer è che è semplice implementare ed efficiente dal punto di vista computazionale.
Per inviare suggerimenti, Invia un problema qui.