A jutalompontszám a személyre szabás sikerességét jelzi
Fontos
2023. szeptember 20-tól nem hozhat létre új Personalizer-erőforrásokat. A Personalizer szolgáltatás 2026. október 1-jén megszűnik.
A jutalom pontszám azt jelzi, hogy a RewardActionID személyre szabási döntés milyen jól eredményezte a felhasználót. A jutalompont értékét az üzleti logika határozza meg a felhasználói viselkedés megfigyelései alapján.
A Personalizer a jutalmak kiértékelésével edzi gépi tanulási modelljeit.
Megtudhatja , hogyan konfigurálhatja az alapértelmezett jutalompontszámot az Azure Portalon a Personalizer-erőforráshoz.
Jutalompont küldése a Personalizernek a Reward API használatával
A Reward API a Reward API-val küldi el a jutalmakat a Personalizernek. A jutalom általában 0 és 1 közötti szám. A negatív jutalom - 1 értékkel bizonyos helyzetekben lehetséges, és csak akkor használható, ha ön megerősítési tanulásban (RL) járt. A Personalizer betanozza a modellt, hogy az idő során a lehető legmagasabb jutalomösszeget érje el.
A rendszer a jutalmakat a felhasználói viselkedés után küldi el, ami napokkal később is előfordulhat. A Maximális idő, ameddig a Personalizer megvárja, amíg egy esemény nem minősül jutalomnak, vagy egy alapértelmezett jutalom az Azure Portal reward várakozási idejével van konfigurálva.
Ha egy esemény jutalompontszáma nem érkezik meg a jutalom várakozási ideje alatt, akkor a rendszer alkalmazza az alapértelmezett jutalomértéket . Az Alapértelmezett jutalom általában nulla értékre van konfigurálva.
A jutalmakhoz megfontolandó viselkedések és adatok
Vegye figyelembe ezeket a jeleket és viselkedéseket a jutalompont kontextusában:
- Közvetlen felhasználói bemenet a javaslatokhoz, ha a lehetőségek is szerepelnek ("Érted X?").
- Munkamenet hossza.
- Munkamenetek közötti idő.
- A felhasználó interakcióinak hangulatelemzése.
- Közvetlen kérdések és mini felmérések, amelyekben a robot visszajelzést kér a felhasználótól a hasznosságról, a pontosságról.
- Riasztásokra adott válasz, illetve a riasztásokra adott válasz késleltetése.
Jutalompontszám összeállítása
A jutalompontot az üzleti logikában kell kiszámítani. A pontszám a következőképpen jeleníthető meg:
- Egyszer elküldött szám
- Egy azonnal elküldött pontszám (például 0,8) és egy később elküldött további pontszám (általában 0,2).
Alapértelmezett jutalmak
Ha a Jutalom várakozási ideje alatt nem kap jutalmat, a Rang hívás óta eltelt időtartam, a Personalizer implicit módon alkalmazza az Alapértelmezett jutalmat az adott Rang eseményre.
Jutalmak létrehozása több tényezővel
A hatékony személyre szabáshoz több tényező alapján is összeállíthatja a jutalompontszámot.
Ezeket a szabályokat alkalmazhatja például a videótartalmak listájának személyre szabásához:
Felhasználói viselkedés | Részleges pontszámérték |
---|---|
A felhasználó a felső elemre kattintott. | +0,5 jutalom |
A felhasználó megnyitotta az elem tényleges tartalmát. | +0,3 jutalom |
A felhasználó 5 percet vagy 30%-ot figyelt meg, attól függően, hogy melyik hosszabb. | +0,2 jutalom |
Ezután elküldheti a teljes jutalmat az API-nak.
A Reward API többszöri meghívása
A Reward API-t ugyanazzal az eseményazonosítóval is meghívhatja, különböző jutalompontszámokat küldve. Amikor a Personalizer megkapja ezeket a jutalmakat, az a Personalizer-konfigurációban megadott összesítéssel határozza meg az esemény végső jutalmát.
Összesítési értékek:
- Első: Az eseményhez kapott első jutalompontot veszi fel, és elveti a többit.
- Összeg: Az eventId-hez gyűjtött összes jutalompontot felveszi, és összeadja őket.
A reward wait time után kapott események összes jutalmát elvetjük, és nem befolyásolják a modellek betanítását.
A jutalompontszámok hozzáadásával a végső jutalom a várt pontszámtartományon kívül eshet. Ez nem teszi tönkre a szolgáltatást.
Ajánlott eljárások a jutalompont kiszámításához
Vegye figyelembe a sikeres személyre szabás valódi mutatóit: A kattintások tekintetében könnyű gondolkodni, de a jó jutalom azon alapul, hogy mit szeretne elérni a felhasználók számára ahelyett, hogy azt szeretné, hogy az emberek mit tegyenek. A kattintások jutalmazása például a kattintásra hajlamos tartalom kiválasztásához vezethet.
Használjon jutalompontot, hogy milyen jó volt a személyre szabás: A filmjavaslat személyre szabása remélhetőleg azt eredményezi, hogy a felhasználó megnézi a filmet, és magas értékelést ad neki. Mivel a film minősítése valószínűleg sok mindentől függ (a színészi teljesítmény minősége, a felhasználó hangulata), nem jó jutalom jel arra, hogy mennyire működött a személyre szabás . A felhasználó figyeli az első néhány perc a film, azonban lehet, hogy jobb jele a személyre szabás hatékonyságát, és küld egy jutalom 1 után 5 perc lesz jobb jel.
A jutalmak csak a RewardActionID-re vonatkoznak: A Personalizer a jutalmakat a RewardActionID-ben megadott művelet hatékonyságának megértéséhez alkalmazza. Ha úgy dönt, hogy más műveleteket jelenít meg, és a felhasználó kiválasztja őket, a jutalom értéke nulla lesz.
Fontolja meg a nem kívánt következményeket: Jutalomfüggvények létrehozása, amelyek felelősségteljes eredményekhez vezetnek etikával és felelősségteljes használattal.
Növekményes jutalmak használata: A kisebb felhasználói viselkedésekért járó részjutalmak hozzáadása segít a Personalizernek a jobb jutalmak elérésében. Ez a növekményes jutalom lehetővé teszi az algoritmus számára, hogy tudja, egyre közelebb kerül ahhoz, hogy a felhasználót a végső kívánt viselkedésbe bevonja.
- Ha a filmek listáját jeleníti meg, ha a felhasználó egy ideig az elsőre mutat, és további információkat szeretne látni, megállapíthatja, hogy történt-e valamilyen felhasználói előjegyzés. A viselkedés 0,1 jutalompontszámmal számolhat.
- Ha a felhasználó megnyitotta az oldalt, majd kilépett, a jutalompontszám 0,2 lehet.
Jutalom várakozási ideje
A Personalizer korrelálja a Rank-hívás adatait a Reward-hívásokban küldött jutalmakkal a modell betanítása érdekében, amelyek különböző időpontokban érkezhetnek. A Personalizer meghatározott ideig várja a jutalompontszámot, kezdve a megfelelő ranghívással. Ez akkor is megtörténik, ha a Rang hívás késleltetett aktiválással történt](concept-active-inactive-events.md).
Ha a jutalom várakozási ideje lejár, és nem érkezett jutalominformáció, a rendszer egy alapértelmezett jutalomértéket alkalmaz az eseményre a betanításhoz. A jutalom várakozási ideje 10 perc, 4 óra, 12 óra vagy 24 óra lehet. Ha a forgatókönyv hosszabb jutalom-várakozási időt igényel (például marketinges e-mail-kampányok esetén), privát előzetes verziót kínálunk a hosszabb várakozási időkről. Nyisson meg egy támogatási jegyet az Azure Portalon, hogy kapcsolatba lépjen a csapattal, és ellenőrizze, hogy jogosult-e, és felajánlhatja önnek.
Ajánlott eljárások a jutalom-várakozási időhöz
Kövesse ezeket a javaslatokat a jobb eredmények érdekében.
A Reward várakozási idejét a lehető legrövidebbre állíthatja, miközben elegendő időt hagy a felhasználói visszajelzések lekérésére.
Ne válasszon olyan időtartamot, amely rövidebb, mint a visszajelzéshez szükséges idő. Ha például egy felhasználó 1 perces videó megtekintése után jut jut jutalmaihoz, a kísérlet hosszának legalább a duplájára kell nőnie.