Mi az a megerősítési tanulás?
Fontos
2023. szeptember 20-tól nem hozhat létre új Personalizer-erőforrásokat. A Personalizer szolgáltatás 2026. október 1-jén megszűnik.
A megerősítési tanulás a gépi tanulás olyan megközelítése, amely a használatból visszajelzést kapva tanulja meg a viselkedést.
A Megerősítési tanulás a következővel működik:
- Lehetőséget vagy szabadságfokot biztosít a viselkedéshez – például döntéseket vagy döntéseket hozni.
- Környezeti információk biztosítása a környezetről és a választási lehetőségekről.
- Visszajelzés küldése arról, hogy a viselkedés milyen jól ér el egy bizonyos célt.
Bár a megerősítési tanulásnak számos altípusa és stílusa van, a Personalizerben így működik a koncepció:
- Az alkalmazás lehetővé teszi egy tartalom megjelenítését az alternatívák listájából.
- Az alkalmazás információkat nyújt az egyes alternatívákról és a felhasználó környezetéről.
- Az alkalmazás jutalompontot számít ki.
A megerősítési tanulás néhány megközelítésével ellentétben a Personalizer nem igényel szimulációt. A tanulási algoritmusok úgy vannak kialakítva, hogy reagáljanak egy külső világra (szemben az irányítással), és tanuljanak minden adatpontból azzal a megértéssel, hogy ez egy egyedi lehetőség, amely időt és pénzt hoz létre, és hogy nem nulla sajnálat (a lehetséges jutalom elvesztése), ha az optimális teljesítmény bekövetkezik.
Milyen típusú megerősítési tanulási algoritmusokat használ a Personalizer?
A Personalizer jelenlegi verziója környezetfüggő banditokat használ, amelyek a tanulás megerősítésének megközelítését használják, amely egy adott kontextusban a különálló műveletek közötti döntések vagy döntések meghozatalára vonatkozik.
A döntési memória, a modell, amely a lehető legjobb döntés rögzítésére lett betanított, adott kontextusban lineáris modelleket használ. Ezek többször is megmutatták az üzleti eredményeket, és bevált megközelítésnek számítanak, részben azért, mert nagyon gyorsan tanulhatnak a valós világból anélkül, hogy többlépéses képzésre lenne szükségük, részben pedig azért, mert kiegészíthetik a felügyelt tanulási modelleket és a mély neurális hálózati modelleket.
A feltárási / legjobb művelet forgalom lefoglalása véletlenszerűen történik a feltáráshoz beállított százalékos arány alapján, és a feltárás alapértelmezett algoritmusa epsilon-mohó.
A környezetfüggő banditák története
John Langford a Contextual Bandits (Langford és Zhang [2007]) nevet alkotta meg az utánpótlás-tanulás egy hasznos részhalmazának leírásához, és egy fél tucat tanulmányon dolgozott, hogy jobban megértsük, hogyan tanulhatunk ebben a paradigmában:
- Beygelzimer et al. [2011]
- Dudík et al. [2011a, b]
- Agarwal et al. [2014, 2012]
- Beygelzimer és Langford [2009]
- Li et al. [2010]
John korábban több oktatóanyagot is adott olyan témákról, mint a közös előrejelzés (ICML 2015), a környezetfüggő banditelmélet (NIPS 2013), az Active Learning (ICML 2009) és a minta összetettségi korlátok (ICML 2003)
Milyen gépi tanulási keretrendszereket használ a Personalizer?
A Personalizer jelenleg a Vowpal Wabbitet használja a gépi tanulás alapjaként. Ez a keretrendszer lehetővé teszi a maximális átviteli sebességet és a legalacsonyabb késést a személyre szabás rangsorolása és a modell betanítása során az összes eseményhez.
Hivatkozások
- Környezetfüggő döntések alacsony technikai adóssággal
- A méltányos besorolás csökkentési megközelítése
- Hatékony környezetfüggő banditák a nem helyhez kötött világokban
- Reziduális veszteség előrejelzése: Megerősítés: tanulás növekményes visszajelzés nélkül
- Utasítások és vizuális megfigyelések leképezése műveletekhez megerősítési tanulással
- Tanulás a keresés jobb, mint a tanár