Belöningspoäng indikerar lyckad anpassning

Artikel
01/19/2024

Viktigt!

Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.

Belöningspoängen anger hur väl anpassningsvalet RewardActionID resulterade för användaren. Värdet för belöningspoängen bestäms av din affärslogik baserat på observationer av användarbeteende.

Personalizer tränar sina maskininlärningsmodeller genom att utvärdera belöningarna.

Lär dig hur du konfigurerar standardpoängen för belöning i Azure-portalen för din Personalizer-resurs.

Använda Reward API för att skicka belöningspoäng till Personanpassning

Belöningar skickas till Personanpassning av Reward-API:et. Vanligtvis är en belöning ett tal från 0 till 1. En negativ belöning, med värdet -1, är möjlig i vissa scenarier och bör endast användas om du har erfarenhet av förstärkningsinlärning (RL). Personanpassning tränar modellen för att uppnå högsta möjliga summa belöningar över tid.

Belöningar skickas efter att användarbeteendet har inträffat, vilket kan vara dagar senare. Den maximala tiden personaliseraren väntar tills ett evenemang anses ha någon belöning eller en standardbelöning har konfigurerats med belöningsväntetiden i Azure-portalen.

Om belöningspoängen för ett evenemang inte har mottagits inom väntetiden för belöningen tillämpas standardbelöningen. Standardbelöningen är vanligtvis konfigurerad till noll.

Beteenden och data att tänka på för belöningar

Tänk på dessa signaler och beteenden för kontexten för belöningspoängen:

Direktanvändarindata för förslag när alternativen är inblandade ("Menar du X?").
Sessionslängd.
Tid mellan sessioner.
Attitydanalys av användarens interaktioner.
Direkta frågor och miniundersökningar där roboten ber användaren om feedback om användbarhet, noggrannhet.
Svar på aviseringar eller fördröjning av svar på aviseringar.

Skapa belöningspoäng

En belöningspoäng måste beräknas i din affärslogik. Poängen kan representeras som:

Ett enda nummer som skickas en gång
En poäng skickas omedelbart (till exempel 0,8) och en ytterligare poäng skickas senare (vanligtvis 0,2).

Standardbelöningar

Om ingen belöning tas emot inom väntetiden för belöningen, varaktigheten sedan Rank-anropet, tillämpar Personalizer implicit standardbelöningen på den rankningshändelsen.

Skapa belöningar med flera faktorer

För effektiv anpassning kan du bygga upp belöningspoängen baserat på flera faktorer.

Du kan till exempel tillämpa dessa regler för att anpassa en lista med videoinnehåll:

Användarbeteende	Partiellt poängvärde
Användaren klickade på det översta objektet.	+0,5 belöning
Användaren öppnade det faktiska innehållet i objektet.	+0,3 belöning
Användaren tittade på 5 minuter av innehållet eller 30 %, beroende på vilket som är längre.	+0,2 belöning

Du kan sedan skicka den totala belöningen till API:et.

Anropa Reward API flera gånger

Du kan också anropa Reward-API:et med samma händelse-ID och skicka olika belöningspoäng. När personanpassningen får dessa belöningar avgör den den slutliga belöningen för händelsen genom att aggregera dem enligt vad som anges i personanpassningskonfigurationen.

Sammansättningsvärden:

Första: Tar den första belöningspoängen som mottagits för evenemanget och tar bort resten.
Summa: Tar alla belöningspoäng som samlats in för eventId och lägger till dem tillsammans.

Alla belöningar för ett evenemang, som tas emot efter belöningens väntetid, tas bort och påverkar inte träningen av modeller.

Genom att lägga till belöningspoäng kan din slutliga belöning ligga utanför det förväntade poängintervallet. Detta gör inte att tjänsten misslyckas.

Metodtips för att beräkna belöningspoäng

Tänk på verkliga indikatorer för lyckad anpassning: Det är lätt att tänka när det gäller klick, men en bra belöning baseras på vad du vill att dina användare ska uppnå i stället för vad du vill att människor ska göra. Till exempel kan givande vid klick leda till att välja innehåll som är clickbait benäget.
Använd en belöningspoäng för hur bra anpassningen fungerade: Att anpassa ett filmförslag skulle förhoppningsvis resultera i att användaren tittar på filmen och ger den ett högt betyg. Eftersom filmklassificeringen förmodligen beror på många saker (kvaliteten på skådespeleriet, användarens humör), är det inte en bra belöningssignal för hur väl anpassningen fungerade. Användaren som tittar på filmens första minuter kan dock vara en bättre signal om personaliseringseffektivitet och att skicka en belöning på 1 efter 5 minuter kommer att vara en bättre signal.
Belöningar gäller endast RewardActionID: Personalizer tillämpar belöningarna för att förstå effekten av åtgärden som anges i RewardActionID. Om du väljer att visa andra åtgärder och användaren väljer dem ska belöningen vara noll.
Överväg oavsiktliga konsekvenser: Skapa belöningsfunktioner som leder till ansvarsfulla resultat med etik och ansvarsfull användning.
Använd inkrementella belöningar: Om du lägger till partiella belöningar för mindre användarbeteenden kan personanpassningen få bättre belöningar. Den här inkrementella belöningen gör att algoritmen vet att den närmar sig att engagera användaren i det slutliga önskade beteendet.
- Om du visar en lista över filmer kan du fastställa att viss användarengagemang har skett om användaren hovrar över den första en stund för att se mer information. Beteendet kan räknas med en belöningspoäng på 0,1.
- Om användaren öppnade sidan och sedan avslutade kan belöningspoängen vara 0,2.

Väntetid för belöning

Personanpassning korrelerar informationen i ett Rank-samtal med belöningarna som skickas i Reward-samtal för att träna modellen, som kan komma vid olika tidpunkter. Personanpassning väntar på belöningspoängen under en definierad begränsad tid, med början när motsvarande rankningsanrop inträffade. Detta görs även om Rank-anropet gjordes med uppskjuten aktivering](concept-active-inactive-events.md).

Om väntetiden för belöningen upphör att gälla och det inte har funnits någon belöningsinformation tillämpas en standardbelöning på det evenemanget för träning. Du kan välja en belöningsväntetid på 10 minuter, 4 timmar, 12 timmar eller 24 timmar. Om ditt scenario kräver längre väntetider för belöning (t.ex. för e-postkampanjer för marknadsföring) erbjuder vi en privat förhandsversion av längre väntetider. Öppna ett supportärende i Azure-portalen för att komma i kontakt med teamet och se om du kvalificerar dig och det kan erbjudas dig.

Metodtips för väntetid för belöning

Följ dessa rekommendationer för bättre resultat.

Gör belöningens väntetid så kort du kan, samtidigt som du lämnar tillräckligt med tid för att få feedback från användaren.
Välj inte en varaktighet som är kortare än den tid som krävs för att få feedback. Om några av dina belöningar till exempel kommer in efter att en användare har sett en minut av en video bör experimentlängden vara minst dubbelt så lång.