Offline vyhodnocení

Článek
01/19/2024

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky personalizace. Služba Personalizace se vyřadí z provozu 1. října 2026.

Offline vyhodnocení je metoda, která umožňuje otestovat a posoudit efektivitu služby Personalizace beze změny kódu nebo ovlivnění uživatelského prostředí. Při offline vyhodnocení se používají předchozí data odesílaná z vaší aplikace do rozhraní Rank and Rewards API, aby bylo možné porovnat, jak různá pořadí byla provedena.

Offline vyhodnocení se provádí v rozsahu kalendářních dat. Rozsah se může dokončit až do aktuálního času. Začátek rozsahu nesmí být delší než počet dnů určených pro uchovávání dat.

Offline vyhodnocení vám může pomoct zodpovědět následující otázky:

Jak efektivní jsou pořadí personalizace pro úspěšné přizpůsobení?
- Jaké jsou průměrné odměny dosažené zásadami online strojového učení personalizace?
- Jak personalizace porovnává efektivitu toho, co by aplikace ve výchozím nastavení udělala?
- Jaká by byla srovnávací účinnost náhodné volby pro personalizaci?
- Jaká by byla srovnávací efektivita různých studijních zásad určených ručně?
Které funkce kontextu přispívají k úspěšnému přizpůsobení více nebo méně?
Které funkce akcí přispívají více nebo méně k úspěšnému přizpůsobení?

Kromě toho je možné použít offline vyhodnocení ke zjištění optimalizovaných zásad výuky, které personalizace může využít ke zlepšení výsledků v budoucnu.

Offline vyhodnocení neposkytuje pokyny týkající se procenta událostí, které se mají použít k průzkumu.

Předpoklady pro offline vyhodnocení

Toto jsou důležité aspekty pro reprezentativní offline vyhodnocení:

Máte dostatek dat. Doporučené minimum je alespoň 50 000 událostí.
Shromážděte data z období s reprezentativním chováním uživatele a provozem.

Zjištění optimalizovaných zásad učení

Personalizace může pomocí procesu offline vyhodnocení automaticky zjistit optimální zásady učení.

Po provedení offline vyhodnocení uvidíte srovnávací efektivitu personalizace s danou novou zásadou v porovnání s aktuální online zásadou. Pak můžete tuto zásadu výuky použít, aby byla okamžitě efektivní v personalizaci, stažením a nahráním na panelu Modely a zásady. Můžete si ho také stáhnout pro budoucí analýzu nebo použití.

Aktuální zásady zahrnuté v hodnocení:

nastavení Učení	Účel
Online zásady	Aktuální zásada Učení použitá v personalizaci
Podle směrného plánu	Výchozí nastavení aplikace (určené první akcí odeslanou ve voláních pořadí)
Náhodné zásady	Imaginární chování pořadí, které vždy vrací náhodný výběr akcí z zadaných.
Vlastní zásady	Další Učení zásady nahrané při spuštění vyhodnocení.
Optimalizované zásady	Pokud bylo vyhodnocení zahájeno s možností zjistit optimalizovanou zásadu, bude také porovnána a budete ji moct stáhnout nebo nastavit jako online zásady výuky a nahradit tak aktuální zásadu.

Vysvětlení relevance výsledků offline hodnocení

Při spuštění offline vyhodnocení je velmi důležité analyzovat hranice spolehlivosti výsledků. Pokud jsou široké, znamená to, že vaše aplikace nepřijala dostatek dat, aby odhady odměn byly přesné nebo významné. Vzhledem k tomu, že systém shromažďuje více dat a během delších období spouštíte offline vyhodnocení, intervaly spolehlivosti se zužují.

Jak se hodnocení offline provádí

Offline vyhodnocení se provádí pomocí metody s názvem Counterfactual Evaluation.

Personalizace je vytvořená na předpokladu, že chování uživatelů (a proto odměny) není možné zpětně předpovědět (Personalizace nemůže vědět, co by se stalo, kdyby se uživateli zobrazilo něco jiného než to, co viděli) a jen se učit z měřených odměn.

Toto je koncepční proces používaný pro vyhodnocení:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

Offline vyhodnocení používá pouze pozorované chování uživatele. Tento proces zahodí velké objemy dat, zejména pokud vaše aplikace provede volání pořadí s velkým počtem akcí.

Vyhodnocení funkcí

Offline vyhodnocení může poskytnout informace o tom, kolik konkrétních funkcí pro akce nebo kontext váží vyšší odměny. Informace se počítají pomocí vyhodnocení pro dané časové období a data a mohou se lišit v čase.

Doporučujeme podívat se na vyhodnocení funkcí a ptát se:

Jaké další, další funkce můžou vaše aplikace nebo systém poskytovat v rámci těch, které jsou efektivnější?
Jaké funkce je možné odebrat z důvodu nízké účinnosti? Funkce nízké účinnosti přidávají do strojového učení šum .
Existují nějaké funkce, které se omylem zahrnou? Příklady jsou: identifikovatelné informace uživatele, duplicitní ID atd.
Existují nějaké nežádoucí funkce, které by se neměly používat k přizpůsobení kvůli zákonným nebo zodpovědným aspektům použití? Existují funkce, které by mohly proxy (to znamená úzce zrcadlit nebo korelovat) nežádoucími funkcemi?

Další kroky

Konfigurace offline vyhodnocení spuštění personalizacepochopit, jak personalizace funguje