Epizód

Az ösvények felgyülemlése az útvonal legyőzése előtt: Minta-hatékony Monte-Carlo-tervezés

nevű és Jean-Bastien Grill

Neurális információfeldolgozó rendszerek konferencia – NIPS 2016

A Markov-döntési folyamatok (MDP-k) mintavételalapú tervezési problémáját tanulmányozzuk, amelyet csak egy generatív modellen keresztül érhetünk el, amelyet általában Monte-Carlo-tervezésnek nevezünk. Célunk az optimális értékfüggvény megfelelő becslésének visszaadása bármilyen állapotban, miközben minimalizáljuk a generatív modell hívásainak számát, azaz a minta összetettségét. Egy új, TrailBlazer nevű algoritmust javasolunk, amely képes az MDP-k kezelésére véges vagy végtelen számú átmenettel az állapotműveletről a következő állapotokra. A TrailBlazer egy adaptív algoritmus, amely kihasználja az MDP lehetséges struktúráit azáltal, hogy csak az állapotok egy részhalmazát vizsgálja meg, amely a közel optimális szabályzatok követésével érhető el. A minta összetettségére vonatkozó korlátokat biztosítunk, amelyek a közeli optimális állapotok mennyiségétől függenek. Az algoritmus viselkedése úgy tekinthető, mint a Monte-Carlo-mintavételezés kiterjesztése (az elvárás becsléséhez) azokra a problémákra, amelyek a maximálást (műveleteken keresztül) és a várakozást (a következő állapotokban) váltják ki. Végül a TrailBlazer egy másik vonzó funkciója, hogy egyszerűen implementálható és számításilag hatékony.