Partage via


Exploration

Important

À compter du 20 septembre 2023, vous ne pourrez pas créer de ressources Personalizer. Le service Personalizer est mis hors service le 1er octobre 2026.

Avec une exploration, le service Personalizer est en mesure de fournir en continu de bons résultats, même si le comportement de l’utilisateur change.

Quand le service Personalizer reçoit un appel de classement, il retourne un ID RewardActionID basé sur l’une des approches suivantes :

  • une pertinence connue pour faire correspondre le comportement d’utilisateur le plus probable compte tenu du modèle Machine Learning actif ;
  • une exploration ne correspondant pas à l’action la plus probable dans le classement.

Le service Personalizer utilise actuellement un algorithme nommé epsilon greedy pour explorer.

Choix d’un paramètre d’exploration

Vous configurez le pourcentage de trafic à utiliser pour l’exploration dans la page Configuration du portail Azure pour le service Personalizer. Ce paramètre détermine le pourcentage d’appels de classement qui effectuent l’exploration.

Personalizer détermine s’il est nécessaire d’explorer ou d’utiliser l’action la plus probable du modèle sur chaque appel de classement. Cela diffère du comportement de certaines infrastructures A/B qui verrouillent un traitement sur des ID utilisateur spécifiques.

Meilleures pratiques pour le choix d’un paramètre d’exploration

Le choix d’un paramètre d’exploration est une décision opérationnelle concernant la proportion d’interactions d’utilisateur nécessaires pour explorer, afin d’améliorer le modèle.

Une valeur égale à zéro annule de nombreux avantages du servie Personalizer. Avec ce paramètre, le service Personalizer n’utilise aucune interaction d’utilisateur pour découvrir de meilleures interactions d’utilisateur. Cela conduit à une stagnation, à une dérive et finalement à une chute des performances du modèle.

Une valeur trop élevée pour le paramètre annule les bénéfices de l’apprentissage du comportement de l’utilisateur. La valeur 100 % implique une randomisation de constante, de sorte qu’aucun comportement appris des utilisateurs n’a d’influence sur le résultat.

Il est important de ne pas modifier le comportement de l’application selon que le service Personalizer explore ou utilise la meilleure action apprise. Cela conduirait à des biais d’apprentissage qui finiraient par réduire les performances potentielles.

Étapes suivantes

Apprentissage par renforcement