Co je Učení výztuže?

Článek
01/19/2024

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky personalizace. Služba Personalizace se vyřadí z provozu 1. října 2026.

Posílení Učení je přístup ke strojovému učení, který se učí chování získáním zpětné vazby z jejího použití.

Výztužné Učení funguje:

Poskytnutí příležitosti nebo stupně volnosti k přijetí chování , jako je například rozhodování nebo volby.
Poskytuje kontextové informace o prostředí a možnostech.
Poskytnutí zpětné vazby o tom, jak dobře chování dosahuje určitého cíle.

I když existuje mnoho podtypů a stylů výztužného učení, je to způsob, jakým koncept funguje v personalizaci:

Vaše aplikace nabízí možnost zobrazit jednu část obsahu ze seznamu alternativ.
Vaše aplikace poskytuje informace o jednotlivých alternativách a kontextu uživatele.
Vaše aplikace vypočítá skóre odměny.

Na rozdíl od některých přístupů k výztužné učení nevyžaduje personalizace simulaci, ve které by fungovala. Jeho algoritmy učení jsou navržené tak, aby reagovaly na vnější svět (a neovládaly ho) a učí se z každého datového bodu s pochopením, že je to jedinečná příležitost, která stojí čas a peníze k vytvoření, a že existuje nenulová lítost (ztráta možné odměny), pokud dojde k neoptimálnímu výkonu.

Jaký typ algoritmů pro výztužné učení používá personalizace?

Aktuální verze personalizace používá kontextové bandity, přístup k učení o posílení, který je určen pro rozhodování nebo volby mezi diskrétními akcemi v daném kontextu.

Rozhodovací paměť, model, který byl vytrénován k zachycení nejlepšího možného rozhodnutí vzhledem k kontextu, používá sadu lineárních modelů. Tyto výsledky opakovaně ukázaly obchodní výsledky a jsou osvědčeným přístupem, částečně proto, že se můžou velmi rychle učit z reálného světa, aniž by potřebovaly trénování s více průchody, a částečně proto, že mohou doplnit modely učení pod dohledem a modely hluboké neurální sítě.

Přidělení provozu prozkoumání / nejlepší akce se náhodně provádí za procentem nastaveným pro průzkum a výchozí algoritmus pro průzkum je epsilon-greedy.

Historie kontextových banditů

John Langford vymyslel název Contextual Bandits (Langford a Zhang [2007]) popisovat snadnou podmnožinu výztuže a pracoval na půl tuctu dokumentů, které zlepšují naše porozumění tomu, jak se naučit v tomto paradigmatu:

Beygelzimer et al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer a Langford [2009]
Li et al. [2010]

John také uvedl několik kurzů dříve o tématech, jako je společná předpověď (ICML 2015), kontextová banditová teorie (NIPS 2013), aktivní Učení (ICML 2009) a ukázkové hranice složitosti (ICML 2003)

Jaké architektury strojového učení personalizace používá?

Personalizace v současné době jako základ pro strojové učení používá Vowpal Wabbit . Tato architektura umožňuje maximální propustnost a nejnižší latenci při určování pořadí přizpůsobení a trénování modelu se všemi událostmi.

Odkazy

Další kroky

Offline vyhodnocení