Terminologi för personanpassning

Artikel
01/19/2024

Viktigt!

Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.

Personanpassning använder terminologi från förstärkningsinlärning. Dessa termer används i Azure-portalen och API:erna.

Konceptuell terminologi

Learning Loop: Du skapar en Personalizer-resurs som kallas för en inlärningsloop för varje del av ditt program som kan dra nytta av anpassning. Om du har mer än en upplevelse att anpassa skapar du en loop för var och en.
Modell: En personanpassningsmodell samlar in alla data som lärts om användarbeteende, hämtar träningsdata från kombinationen av argument som du skickar till Rank- och Reward-anrop och med ett träningsbeteende som bestäms av inlärningsprincipen.
Onlineläge: Standardinlärningsbeteendet för Personanpassning där din inlärningsloop använder maskininlärning för att skapa den modell som förutsäger den främsta åtgärden för ditt innehåll.
Lärlingsläge: Ett inlärningsbeteende som hjälper till att starta en personanpassningsmodell att träna utan att påverka programresultaten och åtgärderna.

Inlärningsbeteende:

Onlineläge: Returnera den bästa åtgärden. Din modell svarar på rankningssamtal med den bästa åtgärden och använder Reward-anrop för att lära sig och förbättra sina val över tid.
Lärlingsläge: Lär dig som lärling. Din modell lär sig genom att observera beteendet för ditt befintliga system. Rankningsanrop returnerar alltid programmets standardåtgärd (baslinje).

Konfiguration av personanpassning

Personanpassning konfigureras från Azure-portalen.

Belöningar: Konfigurera standardvärdena för belöningsväntetid, standardbelönings- och belöningsaggregeringsprincip.
Utforskning: Konfigurera procentandelen rankningsanrop som ska användas för utforskning
Uppdateringsfrekvens för modell: Hur ofta modellen tränas om.
Datakvarhållning: Hur många dagar data ska lagras. Detta kan påverka offlineutvärderingar som används för att förbättra din inlärningsloop.

Använda API:er för rankning och belöning

Rangordning: Med tanke på åtgärderna med funktioner och kontextfunktioner använder du utforska eller utnyttja för att returnera den översta åtgärden (innehållsobjektet).
- Åtgärder: Åtgärder är innehållsobjekt, till exempel produkter eller kampanjer, att välja mellan. Personanpassning väljer den översta åtgärden (returnerat belöningsåtgärds-ID) som ska visas för dina användare via Rank-API:et.
- Kontext: Om du vill ge en mer exakt rangordning anger du information om din kontext, till exempel:
  - Din användare.
  - Enheten som de är på.
  - Aktuell tid.
  - Andra data om den aktuella situationen.
  - Historiska data om användaren eller kontexten.
  Ditt specifika program kan ha annan kontextinformation.
- Funktioner: En enhet med information om ett innehållsobjekt eller en användarkontext. Se till att endast använda funktioner som är aggregerade. Använd inte specifika tider, användar-ID:t eller andra icke-aggregerade data som funktioner.
  - En åtgärdsfunktion är metadata om innehållet.
  - En kontextfunktion är metadata om kontexten där innehållet visas.
Utforskning: Tjänsten Personanpassning utforskar när den väljer en annan åtgärd för användaren i stället för att returnera den bästa åtgärden. Personanpassningstjänsten undviker drift, stagnation och kan anpassa sig till pågående användarbeteende genom att utforska.
Bästa åtgärd har lärts: Personanpassningstjänsten använder den aktuella modellen för att bestämma den bästa åtgärden baserat på tidigare data.
Experimentvaraktighet: Den tid som personanpassningstjänsten väntar på en belöning, med början från det ögonblick då Rank-anropet inträffade för den händelsen.
Inaktiva händelser: En inaktiv händelse är en händelse där du kallade Rank, men du är inte säker på att användaren någonsin kommer att se resultatet på grund av beslut om klientprogram. Med inaktiva händelser kan du skapa och lagra anpassningsresultat och sedan välja att ignorera dem senare utan att påverka maskininlärningsmodellen.
Belöning: Ett mått på hur användaren svarade på ranknings-API:ets returnerade belöningsåtgärds-ID, som en poäng mellan 0 och 1. Värdet 0 till 1 anges av din affärslogik, baserat på hur valet hjälpte dig att uppnå dina affärsmål för anpassning. Inlärningsloopen lagrar inte den här belöningen som enskild användarhistorik.

Recensioner

Offlineutvärderingar

Utvärdering: En offlineutvärdering avgör den bästa inlärningsprincipen för din loop baserat på programmets data.
Inlärningsprincip: Hur Personanpassning tränar en modell på varje händelse bestäms av vissa parametrar som påverkar hur maskininlärningsalgoritmen fungerar. En ny inlärningsloop börjar med en standardinlärningsprincip som kan ge måttliga prestanda. När du kör Utvärderingar skapar Personalizer nya inlärningsprinciper som är särskilt optimerade för användningsfallen i din loop. Personanpassningen fungerar betydligt bättre med principer som optimerats för varje specifik loop som genereras under utvärderingen. Utbildningspolicyn heter utbildningsinställningar i modell- och inlärningsinställningarna för Personalizer-resursen i Azure-portalen.

Utvärderingar av lärlingsläge

Lärlingsläget innehåller följande utvärderingsmått:

Originalplan – genomsnittlig belöning: Genomsnittliga belöningar för programmets standardvärde (baslinje).
Personanpassning – genomsnittlig belöning: Genomsnitt av totala belöningar Personanpassning skulle potentiellt ha nått.
Genomsnittlig rullande belöning: Förhållandet mellan originalplan och personanpassningsbelöning – normaliserat under de senaste 1 000 händelserna.

Nästa steg

Lär dig mer om etik och ansvarsfull användning

Dela via