Konfigurera beteendet för anpassningsinlärning
Viktigt!
Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.
Lärlingsläget ger dig förtroende för personanpassningstjänsten och dess maskininlärningsfunktioner, och ger en försäkran om att tjänsten skickas information som du kan lära dig av – utan att riskera onlinetrafik.
Konfigurera lärlingsläge
Logga in på Azure-portalen för din Personalizer-resurs.
På sidan Installation går du till fliken Modellinställningar och väljer Lärlingsläge och sedan Spara.
Ändringar i det befintliga programmet
Ditt befintliga program bör inte ändra hur det för närvarande väljer åtgärder som ska visas eller hur programmet avgör värdet, belöningen för den åtgärden. Den enda ändringen i programmet kan vara ordningen på de åtgärder som skickas till API:et för personanpassningsrankning. Den åtgärd som ditt program visar för närvarande skickas som den första åtgärden i åtgärdslistan. Rank-API:et använder den här första åtgärden för att träna din personanpassningsmodell.
Konfigurera programmet så att det anropar ranknings-API:et
För att kunna lägga till Personanpassning i ditt program måste du anropa API:erna rankning och belöning.
Lägg till ranknings-API-anropet efter punkten i din befintliga programlogik där du fastställer listan över åtgärder och deras funktioner. Den första åtgärden i åtgärdslistan måste vara den åtgärd som valts av din befintliga logik.
Konfigurera koden så att den visar åtgärden som är associerad med ranknings-API-svarets Reward Action ID.
Konfigurera ditt program för att anropa Reward API
Kommentar
Reward API-anrop påverkar inte träning i lärlingsläge. Tjänsten lär sig genom att matcha programmets aktuella logik eller standardåtgärder. Men att implementera Reward-anrop i det här skedet hjälper till att säkerställa en smidig övergång till onlineläge senare med en enkel växel i Azure-portalen. Dessutom loggas belöningarna så att du kan analysera hur bra den aktuella logiken presterar och hur mycket belöning som tas emot.
Använd din befintliga affärslogik för att beräkna belöningen för den visade åtgärden. Värdet måste ligga i intervallet från 0 till 1. Skicka den här belöningen till Personanpassning med hjälp av Reward-API:et. Belöningsvärdet förväntas inte omedelbart och kan fördröjas under en tidsperiod , beroende på din affärslogik.
Om du inte returnerar belöningen inom den konfigurerade väntetiden för belöning loggas standardbelöningen i stället.
Utvärdera lärlingsläge
I Azure-portalen går du till sidan Övervaka för din Personalizer-resurs och läser matchningsprestanda.
Lärlingsläget innehåller följande utvärderingsmått:
- Originalplan – genomsnittlig belöning: Genomsnittliga belöningar för programmets standardvärde (baslinje).
- Personanpassning – genomsnittlig belöning: Genomsnitt av totala belöningar Personanpassning skulle potentiellt ha nått.
- Belöningsprestationsförhållande över de senaste 1 000 händelserna: Förhållandet mellan originalplan och personanpassningsbelöning – normaliserat under de senaste 1 000 händelserna.
Växla beteende till onlineläge
När du fastställer att Personanpassning tränas med ett genomsnitt på 75–85 % rullande medelvärde är modellen redo att växla till onlineläge.
I Azure-portalen för din Personalizer-resurs går du till sidan Installation på fliken Modellinställningar och väljer *Onlineläge och sedan Spara.
Du behöver inte göra några ändringar i API-anropen rankning och belöning.