A Tanonc mód használata a Personalizer betanításához a meglévő alkalmazás befolyásolása nélkül

Cikk
01/19/2024

Fontos

2023. szeptember 20-tól nem hozhat létre új Personalizer-erőforrásokat. A Personalizer szolgáltatás 2026. október 1-jén megszűnik.

Új Personalizer-erőforrás üzembe helyezésekor a rendszer nem betanított vagy üres modellel inicializálja. Vagyis nem tanult semmilyen adatból, ezért a gyakorlatban nem fog jól teljesíteni. Ez az úgynevezett "hidegindítás" probléma, és idővel megoldódik a modell éles környezetből származó valós adatokkal való betanításával. A tanulói mód egy tanulási viselkedés, amely segít enyhíteni a "hidegindítás" problémáját, és lehetővé teszi a modellbe vetett bizalmat, mielőtt éles környezetben hozná meg a döntéseket, mindezt kódmódosítás nélkül.

Mi az a Tanonc mód?

Hasonlóan ahhoz, ahogyan egy tanuló egy szakértő megfigyelésével elsajátíthat egy mesterséget, a Tanulószerződéses mód lehetővé teszi a Personalizer számára a tanulást az alkalmazás jelenlegi logikája által hozott döntések megfigyelésével. A Personalizer modell ugyanazt a döntési kimenetet utánozza, mint az alkalmazás. Minden Rank API-hívással a Personalizer anélkül tanulhat, hogy hatással lenne a meglévő logikára és eredményekre. Az Azure Portalról és az API-ból elérhető metrikák segítenek megérteni a teljesítményt, ahogy a modell tanul. Pontosabban azt, hogy a Személyre szabás mennyire felel meg a meglévő logikának (más néven az alapszabályzatnak).

Ha a Personalizer az idő 60-80%-ában képes ésszerűen megegyezni a meglévő logikával, a viselkedést a Tanonc módról online módra módosíthatja. Ekkor a Personalizer az alapul szolgáló modell által meghatározott legjobb műveleteket adja vissza a Rank API-ban, és megtudhatja, hogyan hozhat jobb döntéseket, mint az alapkonfigurációs szabályzat.

Miért érdemes a Tanonc módot használni?

A tanulószerződéses mód lehetővé teszi, hogy a modell utánozza a meglévő döntési logikát, mielőtt az alkalmazás online döntéseket hoz. Ez segít enyhíteni a fent említett hidegindítási problémát, és nagyobb bizalmat biztosít a Personalizer szolgáltatásban, és biztosítja, hogy a Personalizernek küldött adatok értékesek a modell betanításához. Ez anélkül történik, hogy kockáztatná vagy befolyásolná az online forgalmat és az ügyfélélményt.

A Tanonc mód használatának két fő oka:

A hidegindítások mérséklése: A tanonc mód segít csökkenteni egy "új" modell éles környezetben történő betanításának költségeit úgy, hogy anélkül tanul, hogy nem kell informálatlan döntéseket hoznia. A modell megtanulja utánozni a meglévő alkalmazáslogikát.
A műveleti és környezeti funkciók ellenőrzése: A környezeti és műveleti funkciók nem megfelelőek, pontatlanok vagy nem optimálisak. Ha túl kevés, túl sok, helytelen, zajos vagy hibás funkció van, a Személyre szabásnak nehézséget okoz a jól teljesítő modell betanítása. A szolgáltatás kiértékelése a Tanonc módban lehetővé teszi, hogy felfedezze, mennyire hatékonyak a funkciók a Personalizer betanításában, és azonosíthatja a funkciók minőségének javítását szolgáló területeket.

Mikor érdemes a Tanonc módot használni?

A Tanonc módban betaníthatja a Personalizert, hogy a következő forgatókönyvek segítségével növelje hatékonyságát, miközben a felhasználók élményét a Personalizer nem befolyásolja:

A Personalizert egy új forgatókönyvben implementálja.
Jelentős módosításokat hajtott végre a környezet vagy a művelet funkcióin.

A Tanonc mód azonban nem hatékony módszer annak mérésére, hogy a Personalizer milyen hatással lehet az átlagos jutalom vagy az üzleti KPI-k javítására. Csak az aktuális adatok alapján tudja kiértékelni, hogy a szolgáltatás milyen jól tanulja a meglévő logikát. Annak méréséhez, hogy a Personalizer milyen hatékonyan választja ki a lehető legjobb műveletet az egyes ranghívásokhoz, a Personalizernek online módban kell lennie, vagy offline kiértékeléseket is használhat egy olyan időszakban, amikor a Personalizer online módban volt.

Ki használja a Tanonc módot?

A gyakornoki mód fejlesztők, adattudósok és üzleti döntéshozók számára hasznos:

A fejlesztők a Tanonc módban gondoskodhatnak arról, hogy a Rank és Reward API-k megfelelően implementálva legyenek az alkalmazásban, és hogy a Personalizernek küldött funkciók mentesek legyenek a hibáktól és a gyakori hibáktól. További információ a megfelelő környezet- és műveletfunkciók létrehozásáról.
Az adattudósok a Tanonc mód használatával ellenőrizhetik, hogy a funkciók hatékonyak-e a Personalizer-modellek betanításában. A funkciók olyan hasznos információkat tartalmaznak, amelyek lehetővé teszik a Personalizer számára a meglévő döntési logika megismerését.
Az üzleti döntéshozók a Tanulószerződéses mód használatával felmérhetik, hogy a Personalizer milyen lehetőségeket nyújt az eredmények (azaz a jutalmak) javítására a meglévő üzleti logikához képest. Pontosabban azt, hogy a Personalizer tanulhat-e a megadott adatokból, mielőtt online módba lép. Ez lehetővé teszi számukra, hogy megalapozott döntést hozhassanak a felhasználói élmény befolyásolásáról, ahol a valós bevétel és a felhasználói elégedettség forog kockán.

Viselkedések összehasonlítása – Tanulói mód és Online mód

Tanulás a Gyakornok módban az alábbi módokon tér el az Online módtól.

Terület	Gyakornoki mód	Online mód
A felhasználói élményre gyakorolt hatás	A felhasználói élmény és az üzleti metrikák nem változnak. A Personalizer betanításához megfigyelheti az aktuális alkalmazáslogika alapműveleteit anélkül, hogy az hatással van rájuk.	A felhasználói élmény megváltozhat, mivel a Személyre szabás döntése nem az alapművelet.
Tanulás sebesség	A Personalizer az online módban való tanuláshoz képest lassabban tanul a Tanulói módban. A tanonc mód csak úgy tud tanulni, ha megfigyeli az alapértelmezett művelet által kapott jutalmakat felfedezés nélkül, ami korlátozza, hogy a Personalizer mennyit tanulhat.	Gyorsabban tanul, mert a jelenlegi modellből származó legjobb műveletet is kihasználhatja , és más műveleteket is megvizsgálhat a potenciálisan jobb eredmények érdekében.
Tanulás hatékonyság "Plafon"	A Personalizer csak az alkalmazás aktuális logikájának teljesítményét (az alapművelet által elért teljes átlagos jutalom) közelítheti meg, és soha nem haladhatja meg. Nem valószínű, hogy a Personalizer 100%-os egyezést ér el az aktuális alkalmazás logikájával, és azt javasoljuk, hogy ha 60–80%-os egyezést ér el, a Personalizert online módra kell váltania.	A Personalizernek meg kell haladnia az alapkonfigurációs alkalmazáslogika teljesítményét. Ha a Personalizer teljesítménye idővel leáll, az offline kiértékelés és a funkciók kiértékelése további fejlesztésekhez vezethet.
Rank API return value for rewardActionId	A rewardActionId mindig az alapértelmezett művelet azonosítója lesz. Ez azt a műveletet teszi lehetővé, amelyet első műveletként küld el a Rank API-kérés JSON-jában. Más szóval a Rank API nem látható az alkalmazás számára a Tanonc módban.	A rewardActionId a Rank API-hívásban megadott azonosítók egyike lesz a Personalizer-modell által meghatározottak szerint.
Értékelés	A Personalizer megőrzi az aktuális alkalmazáslogika által kapott jutalomösszegek összehasonlítását, és a Personalizer akkor kapja meg a jutalomösszegeket, ha az online módban lenne. Ez az összehasonlítás az Azure Portal Személyre szabó erőforrásának Monitor paneljén tekinthető meg.	Értékelje ki a Personalizer hatékonyságát offline értékelések futtatásával, amelyek segítségével összehasonlíthatja a Personalizer által elért összes jutalmat az alkalmazás alapkonfigurációjának potenciális jutalmával.

Vegye figyelembe, hogy a Personalizer nem valószínű, hogy 100%-os teljesítményt ér el az alkalmazás alaplogikája szerint, és soha nem lépi túl. A 60–80%-os teljesítményegyeztetésnek elegendőnek kell lennie ahhoz, hogy a Personalizer online módra váltson, ahol a Personalizer megtanulhat jobb döntéseket, és túllépheti az alkalmazás alaplogikája teljesítményét.

A Tanulószerződéses mód korlátozásai

A Tanulói mód úgy tanítja be a Personalizer-modellt, hogy megkísérli utánozni a meglévő alkalmazás alapkonfigurációs logikáját a Ranghívások környezet- és műveletfunkcióinak használatával. Az alábbi tényezők befolyásolják a Tanulói mód tanulásra való képességét.

Olyan forgatókönyvek, ahol a tanulói mód nem megfelelő:

Szerkesztőileg kiválasztott tartalom:

Bizonyos forgatókönyvekben, például hírekben vagy szórakozásban az alapelemet manuálisan is hozzárendelheti egy szerkesztői csapat. Ez azt jelenti, hogy az emberek a szélesebb világra vonatkozó tudásukat használják, és megértik, hogy mi lehet vonzó tartalom, hogy bizonyos cikkeket vagy médiatartalmakat válasszanak ki egy készletből, és "előnyben részesített" vagy "főcímként" jelöljék meg őket. Mivel ezek a szerkesztők nem algoritmusok, és a szerkesztők által figyelembe vett tényezők szubjektívek lehetnek, és esetleg nem kapcsolódnak a környezeti vagy műveleti funkciókhoz. Ebben az esetben a tanulói módnak nehézséget okozhat az alapművelet előrejelzése. Ilyen helyzetekben a következőkre van lehetőség:

A Personalizer tesztelése online módban: Fontolja meg, hogy a Personalizert online módban helyezze el időben vagy egy A/B-tesztben, ha rendelkezik az infrastruktúrával, majd futtasson offline értékelést az alkalmazás alaplogikája és a Personalizer közötti különbség felméréséhez.
Adjon hozzá szerkesztői szempontokat és javaslatokat funkcióként: Kérdezze meg a szerkesztőket, hogy milyen tényezők befolyásolják a választásukat, és ellenőrizze, hogy ezeket hozzáadhatja-e a környezetében és a műveletében szereplő funkciókként. Egy médiavállalat szerkesztői például kiemelhetik a tartalmakat, ha egy bizonyos híresség gyakran szerepel a hírekben: Ezt a tudást környezeti funkcióként lehet hozzáadni.

Olyan tényezők, amelyek javítják és felgyorsítják a tanulói módot

Ha a tanulói mód nulla fölött tanul és egyező teljesítményt ér el, de a teljesítmény lassan javul (két héten belül nem éri el a 60%-ról 80%-ra egyező jutalmakat), lehetséges, hogy túl kevés adatot küldenek a Personalizernek. A következő lépések segíthetnek a gyorsabb tanulásban:

Megkülönböztető funkciók hozzáadása: Vizuálisan ellenőrizheti a ranghívásban szereplő műveleteket és azok funkcióit. Az alapművelet rendelkezik olyan funkciókkal, amelyek különböznek a többi művelettől? Ha többnyire azonosnak tűnnek, adjon hozzá további funkciókat, amelyek növelik a funkcióértékek sokféleségét.
Eseményenkénti műveletek csökkentése: A Személyre szabó a "Rangsorhívások százalékos aránya a feltáráshoz" beállítást használja a preferenciák és trendek felderítéséhez. Ha egy ranghívás több műveletből áll, kisebb az esélye annak, hogy egy adott műveletet kiválasztanak a feltáráshoz. Az egyes Rang-hívásokban kisebb számra (10 év alatti) küldött műveletek számának csökkentése ideiglenes módosítás lehet, amely azt jelezheti, hogy a Tanulói mód megfelelő adatokkal rendelkezik-e a tanuláshoz.

Tanulói mód használata az előzményadatokkal való betanítása

Ha jelentős mennyiségű előzményadattal rendelkezik, amelyet a Personalizer betanítása érdekében szeretne használni, a Tanonc módban újra lejátszhatja az adatokat a Personalizer használatával.

Állítsa be a Personalizert gyakornoki módban, és hozzon létre egy szkriptet, amely meghívja a Rangot az előzményadatok műveleteivel és környezeti funkcióival. Hívja meg a Reward API-t az adatok rekordjainak számításai alapján. Körülbelül 50 000 előzményeseményre lehet szüksége ahhoz, hogy a Personalizer 60–80%-os egyezést érjen el az alkalmazás alapkonfigurációs logikájával. Előfordulhat, hogy kevesebb vagy több esemény esetén sikerül kielégítő eredményeket elérnie.

Az előzményadatokból való betanításkor ajánlott a [környezet és műveletek funkciói, a Rangsor kérésekhez használt JSON-elrendezésük, valamint a jutalom kiszámítása ebben a betanítási adatkészletben] elküldött adatok megegyeznek a meglévő alkalmazásból elérhető [funkciók és jutalom kiszámítása] adatokkal.

Az offline és az előzményadatok általában hiányosabbak és zajosabbak, és formátumukban eltérhetnek az éles (vagy online) forgatókönyvtől. Bár az előzményadatokból való betanítás lehetséges, előfordulhat, hogy az eredmények nem meggyőzőek, és nem feltétlenül jó előrejelzője annak, hogy a Personalizer milyen jól tanul online módban, különösen akkor, ha a funkciók eltérőek az előzményadatok és az aktuális forgatókönyv között.

Tanulói mód használata az A/B-tesztekkel szemben

Csak akkor hasznos, ha A/B-teszteket végez a Personalizer-kezelésekről, miután érvényesítették, és online módban tanul, mivel Tanulói módban csak az alapműveletet használják, és a meglévő logikát tanulják. Ez lényegében azt jelenti, hogy a Personalizer az A/B teszt "vezérlő" karjának műveletét adja vissza, ezért a Tanulói módban végzett A/B tesztnek nincs értéke.

Miután használatba vett egy használati esetet a Personalizer használatával és az online tanulással, az A/B kísérletek lehetővé teszik ellenőrzött kohorszok létrehozását és az eredmények összehasonlítását, amelyek összetettebbek lehetnek, mint a jutalmakhoz használt jelek. Egy A/B-teszt például a következőre válaszolhat: "Egy kereskedelmi webhelyen a Personalizer optimalizálja az elrendezést, és több felhasználót kérdez le a korábbiakból, de csökkenti-e a tranzakciónkénti teljes bevételt?"

Következő lépések

Tudnivalók az aktív és inaktív eseményekről

Megosztás a következőn keresztül: