Konfigurera inlärningsbeteendet för personanpassning

Lärlingsläget ger dig förtroende för personanpassningstjänsten och dess maskininlärningsfunktioner och garanterar att tjänsten skickas information som du kan lära dig av – utan att riskera onlinetrafik.

Konfigurera lärlingsläge

  1. Logga in på Azure Portal för din personanpassningsresurs.

  2. På sidan Installation går du till fliken Modellinställningar och väljer Lärlingsläge och sedan Spara.

Skärmbild av konfiguration av inlärningsbeteende för lärlingsläge i Azure Portal

Ändringar i det befintliga programmet

Ditt befintliga program bör inte ändra hur det för närvarande väljer åtgärder som ska visas eller hur programmet avgör värdet, belöningen för åtgärden. Den enda ändringen i programmet kan vara ordningen på de åtgärder som skickas till API:et för personanpassningsrankning. Den åtgärd som ditt program visar för närvarande skickas som den första åtgärden i åtgärdslistan. Ranknings-API:et använder den här första åtgärden för att träna din personanpassningsmodell.

Konfigurera ditt program för att anropa ranknings-API:et

För att kunna lägga till Personanpassning i ditt program måste du anropa API:erna Rank and Reward.

  1. Lägg till API-anropet Rankning efter punkten i din befintliga programlogik där du fastställer listan över åtgärder och deras funktioner. Den första åtgärden i åtgärdslistan måste vara den åtgärd som valts av din befintliga logik.

  2. Konfigurera koden så att den visar åtgärden som är associerad med ranknings-API-svarets åtgärds-ID för belöning.

Konfigurera ditt program för att anropa Reward API

Anteckning

Api-anrop för belöning påverkar inte träning i lärlingsläge. Tjänsten lär sig genom att matcha programmets aktuella logik eller standardåtgärder. Men att implementera Reward-anrop i det här skedet bidrar till att säkerställa en smidig övergång till onlineläge senare med en enkel växel i Azure Portal. Dessutom loggas belöningarna så att du kan analysera hur bra den aktuella logiken presterar och hur mycket belöning som tas emot.

  1. Använd din befintliga affärslogik för att beräkna belöningen för den visade åtgärden. Värdet måste ligga i intervallet från 0 till 1. Skicka den här belöningen till Personanpassning med hjälp av Reward-API:et. Belöningsvärdet förväntas inte omedelbart och kan fördröjas under en tidsperiod , beroende på din affärslogik.

  2. Om du inte returnerar belöningen inom den konfigurerade väntetiden för belöning loggas standardbelöningen i stället.

Utvärdera lärlingsläge

I Azure Portal går du till sidan Övervaka för din personanpassningsresurs och läser Matchande prestanda.

Skärmbild av granskning av utvärdering av inlärningsbeteende för lärlingsläge i Azure Portal

Lärlingsläget innehåller följande utvärderingsmått:

  • Originalplan – genomsnittlig belöning: Genomsnittliga belöningar för programmets standard (baslinje).
  • Personanpassning – genomsnittlig belöning: Genomsnitt av totalt antal belöningar Personanpassning skulle potentiellt ha nått.
  • Förhållandet mellan belöningsprestationer och de senaste 1 000 händelserna: Förhållandet mellan original- och personanpassningsbelöning – normaliserat under de senaste 1 000 händelserna.

Växla beteende till onlineläge

När du fastställer att Personanpassning tränas med ett genomsnitt på 75–85 % rullande medelvärde är modellen redo att växla till onlineläge.

I Azure Portal för din personanpassningsresurs går du till installationssidan och väljer *Onlineläge på fliken Modellinställningar och väljer sedan Spara.

Du behöver inte göra några ändringar i API-anropen rankning och belöning.

Nästa steg