Offline-evaluatie
Belangrijk
Vanaf 20 september 2023 kunt u geen nieuwe Personalizer-resources maken. De Personalizer-service wordt op 1 oktober 2026 buiten gebruik gesteld.
Offline evaluatie is een methode waarmee u de effectiviteit van de Personalizer-service kunt testen en beoordelen zonder uw code te wijzigen of de gebruikerservaring te beïnvloeden. Offlineevaluatie maakt gebruik van eerdere gegevens, verzonden vanuit uw toepassing naar de Rank- en Reward-API's, om te vergelijken hoe verschillende rangschikkingen zijn uitgevoerd.
Offline-evaluatie wordt uitgevoerd op een datumbereik. Het bereik kan zo laat eindigen als de huidige tijd. Het begin van het bereik kan niet langer zijn dan het aantal dagen dat is opgegeven voor gegevensretentie.
Offline evaluatie kan u helpen de volgende vragen te beantwoorden:
- Hoe effectief is Personalizer voor een succesvolle personalisatie?
- Wat zijn de gemiddelde beloningen die worden behaald door het personalizer-beleid voor online machine learning?
- Hoe verhoudt Personalizer zich tot de effectiviteit van wat de toepassing standaard zou hebben gedaan?
- Wat zou de vergelijkende effectiviteit van een willekeurige keuze voor personalisatie zijn geweest?
- Wat zou de vergelijkende effectiviteit van verschillende leerbeleidsregels handmatig zijn opgegeven?
- Welke functies van de context dragen meer of minder bij aan een succesvolle persoonlijke instellingen?
- Welke functies van de acties dragen meer of minder bij aan een succesvolle persoonlijke instellingen?
Daarnaast kan offlineevaluatie worden gebruikt om meer geoptimaliseerd leerbeleid te ontdekken dat Personalizer kan gebruiken om de resultaten in de toekomst te verbeteren.
Offline-evaluaties bieden geen richtlijnen voor het percentage gebeurtenissen dat moet worden gebruikt voor verkenning.
Vereisten voor offline evaluatie
Hieronder volgen belangrijke overwegingen voor de offline evaluatie van de vertegenwoordiger:
- Voldoende gegevens hebben. Het aanbevolen minimum is ten minste 50.000 gebeurtenissen.
- Verzamel gegevens van perioden met representatief gebruikersgedrag en verkeer.
Het geoptimaliseerde leerbeleid ontdekken
Personalizer kan het offline evaluatieproces gebruiken om automatisch een beter leerbeleid te ontdekken.
Nadat u de offline evaluatie hebt uitgevoerd, ziet u de vergelijkende effectiviteit van Personalizer met dat nieuwe beleid in vergelijking met het huidige onlinebeleid. Vervolgens kunt u dat leerbeleid toepassen om het onmiddellijk effectief te maken in Personalizer door het te downloaden en te uploaden in het deelvenster Modellen en Beleid. U kunt het ook downloaden voor toekomstige analyse of gebruik.
Huidige beleidsregels die zijn opgenomen in de evaluatie:
Leerinstellingen | Doel |
---|---|
Onlinebeleid | Het huidige leerbeleid dat wordt gebruikt in Personalizer |
Basislijn | De standaardwaarde van de toepassing (zoals wordt bepaald door de eerste actie die is verzonden in rangschikkingsoproepen) |
Willekeurig beleid | Een imaginair rangschikkingsgedrag dat altijd een willekeurige keuze van acties van de opgegeven acties retourneert. |
Aangepast beleid | Aanvullende leerbeleidsregels die zijn geüpload bij het starten van de evaluatie. |
Geoptimaliseerd beleid | Als de evaluatie is gestart met de optie om een geoptimaliseerd beleid te ontdekken, wordt het ook vergeleken en kunt u deze downloaden of het onlineleerbeleid maken, waarbij u het huidige beleid vervangt. |
Inzicht in de relevantie van offline evaluatieresultaten
Wanneer u een offline evaluatie uitvoert, is het erg belangrijk om betrouwbaarheidsgrenzen van de resultaten te analyseren. Als ze breed zijn, betekent dit dat uw toepassing onvoldoende gegevens heeft ontvangen om de beloningsramingen nauwkeurig of significant te kunnen maken. Naarmate het systeem meer gegevens verzamelt en u offline evaluaties uitvoert gedurende langere perioden, worden de betrouwbaarheidsintervallen smaller.
Hoe offline evaluaties worden uitgevoerd
Offline evaluaties worden uitgevoerd met behulp van een methode genaamd Counterfactual Evaluation.
Personalizer is gebaseerd op de veronderstelling dat het gedrag van gebruikers (en dus beloningen) onmogelijk is om retrospectief te voorspellen (Personalizer kan niet weten wat er zou zijn gebeurd als de gebruiker iets anders zou hebben getoond dan wat ze hebben gezien), en alleen om te leren van gemeten beloningen.
Dit is het conceptuele proces dat wordt gebruikt voor evaluaties:
[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
Initialize a virtual instance of Personalizer with that policy and a blank model;
[For every chronological event in the logs]
{
- Perform a Rank call
- Compare the reward of the results against the logged user behavior.
- If they match, train the model on the observed reward in the logs.
- If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.
}
Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}
De offline-evaluatie maakt alleen gebruik van waargenomen gebruikersgedrag. Met dit proces worden grote hoeveelheden gegevens verwijderd, met name als uw toepassing Rank-aanroepen uitvoert met grote aantallen acties.
Evaluatie van functies
Offlineevaluaties kunnen informatie bieden over hoeveel van de specifieke functies voor acties of context wegen voor hogere beloningen. De informatie wordt berekend met behulp van de evaluatie op basis van de opgegeven periode en gegevens, en kan variëren met de tijd.
We raden u aan om functie-evaluaties te bekijken en het volgende te vragen:
- Welke andere, aanvullende functies kunnen uw toepassing of systeem bieden op basis van de functies die effectiever zijn?
- Welke functies kunnen worden verwijderd vanwege een lage effectiviteit? Lage effectiviteitsfuncties voegen ruis toe aan de machine learning.
- Zijn er functies die per ongeluk zijn opgenomen? Voorbeelden hiervan zijn: gebruikersidentificeerbare informatie, dubbele id's, enzovoort.
- Zijn er ongewenste functies die niet moeten worden gebruikt om te personaliseren vanwege wettelijke of verantwoorde gebruiksoverwegingen? Zijn er functies die ongewenste functies kunnen proxyn (dat wil zeggen, nauw spiegelen of correleren met) ongewenste functies?
Volgende stappen
Persoonlijkeizeroffline evaluaties configureren begrijpen hoe Personalizer werkt