Offlineutvärdering

Artikel
01/19/2024

Viktigt!

Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.

Offlineutvärdering är en metod som gör att du kan testa och utvärdera effektiviteten i personanpassningstjänsten utan att ändra din kod eller påverka användarupplevelsen. Offlineutvärdering använder tidigare data som skickas från ditt program till API:erna Rank och Reward för att jämföra hur olika rangordningar har utförts.

Offlineutvärdering utförs på ett datumintervall. Intervallet kan avslutas så sent som den aktuella tiden. Början av intervallet får inte vara mer än det antal dagar som angetts för datakvarhållning.

Offlineutvärdering kan hjälpa dig att besvara följande frågor:

Hur effektiva är Personanpassningsgrader för lyckad anpassning?
- Vilka är de genomsnittliga belöningar som uppnås av personaliserarens online-maskininlärningsprincip?
- Hur skiljer sig Personanpassning mot effektiviteten i vad programmet skulle ha gjort som standard?
- Vad skulle ha varit den jämförande effektiviteten hos ett slumpmässigt val för anpassning?
- Vad skulle ha varit den jämförande effektiviteten för olika inlärningsprinciper som angetts manuellt?
Vilka funktioner i kontexten bidrar mer eller mindre till lyckad anpassning?
Vilka funktioner i åtgärderna bidrar mer eller mindre till lyckad anpassning?

Dessutom kan offlineutvärdering användas för att identifiera mer optimerade inlärningsprinciper som Personanpassning kan använda för att förbättra resultaten i framtiden.

Offlineutvärderingar ger inte vägledning om procentandelen händelser som ska användas för utforskning.

Förutsättningar för offlineutvärdering

Följande är viktiga överväganden för den representativa offlineutvärderingen:

Ha tillräckligt med data. Det rekommenderade minimumet är minst 50 000 händelser.
Samla in data från perioder med representativt användarbeteende och trafik.

Identifiera den optimerade inlärningsprincipen

Personanpassning kan använda offlineutvärderingsprocessen för att identifiera en mer optimal inlärningsprincip automatiskt.

När du har utfört offlineutvärderingen kan du se den jämförande effektiviteten hos Personanpassning med den nya principen jämfört med den aktuella onlineprincipen. Du kan sedan tillämpa den utbildningspolicyn så att den börjar gälla omedelbart i Personanpassning genom att ladda ned den och ladda upp den i panelen Modeller och princip. Du kan också ladda ned den för framtida analys eller användning.

Aktuella principer som ingår i utvärderingen:

Utbildningsinställningar	Syfte
Onlineprincip	Den aktuella inlärningsprincipen som används i Personanpassning
Originalplan	Programmets standard (som bestäms av den första åtgärden som skickas i Rank-anrop)
Slumpmässig princip	Ett imaginärt rankningsbeteende som alltid returnerar slumpmässigt val av Åtgärder från de angivna.
Anpassade principer	Ytterligare utbildningsprinciper har laddats upp när utvärderingen startas.
Optimerad princip	Om utvärderingen startades med alternativet att identifiera en optimerad princip jämförs den också, och du kommer att kunna ladda ned den eller göra den till onlineinlärningsprincip och ersätta den aktuella.

Förstå relevansen av offlineutvärderingsresultat

När du kör en offlineutvärdering är det mycket viktigt att analysera resultatens konfidensgräns . Om de är breda innebär det att ditt program inte har fått tillräckligt med data för att belöningsberäkningarna ska vara exakta eller betydande. När systemet samlar in mer data och du kör offlineutvärderingar under längre perioder blir konfidensintervallen smalare.

Så här utförs offlineutvärderingar

Offlineutvärderingar görs med hjälp av en metod som kallas Kontrafaktisk utvärdering.

Personanpassning bygger på antagandet att användarnas beteende (och därmed belöningar) är omöjligt att förutsäga i efterhand (Personanpassning kan inte veta vad som skulle ha hänt om användaren hade visat något annat än vad de såg) och bara lära sig av uppmätta belöningar.

Det här är den konceptuella process som används för utvärderingar:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

Offlineutvärderingen använder endast observerat användarbeteende. Den här processen tar bort stora mängder data, särskilt om programmet gör Rankningsanrop med ett stort antal åtgärder.

Utvärdering av funktioner

Offlineutvärderingar kan ge information om hur mycket av de specifika funktionerna för åtgärder eller kontext som väger för högre belöningar. Informationen beräknas med hjälp av utvärderingen mot den angivna tidsperioden och data, och kan variera med tiden.

Vi rekommenderar att du tittar på funktionsutvärderingar och frågar:

Vilka andra ytterligare funktioner kan ditt program eller system tillhandahålla i linje med dem som är mer effektiva?
Vilka funktioner kan tas bort på grund av låg effektivitet? Funktioner med låg effektivitet ger brus i maskininlärningen.
Finns det några funktioner som oavsiktligt ingår? Exempel på dessa är: användar identifierbar information, duplicerade ID:er osv.
Finns det några oönskade funktioner som inte bör användas för att anpassa på grund av regelmässiga eller ansvarsfulla användningsöverväganden? Finns det funktioner som kan proxy (dvs. spegla eller korrelera med) oönskade funktioner?

Nästa steg

Konfigurera utvärderingar för att köra offline för personanpassningförstå hur personanpassning fungerar

Dela via