Caractéristiques et limitations de Personalizer

Article
01/19/2024

Important

À compter du 20 septembre 2023, vous ne pourrez pas créer de ressources Personalizer. Le service Personalizer est mis hors service le 1er octobre 2026.

Azure AI Personalizer peut fonctionner dans de nombreux scénarios. Pour comprendre où vous pouvez appliquer Personalizer, assurez-vous que les exigences de votre scénario répondent aux attentes de Personalizer pour fonctionner. Pour savoir si Personalizer doit être utilisé et comment l’intégrer à vos applications, consultez Cas d’usage pour Personalizer. Vous trouverez des critères et des conseils sur le choix des cas d’usage, la conception de fonctionnalités et les fonctions de récompense pour vos utilisations de Personalizer.

Avant de lire cet article, il est utile de comprendre certaines informations générales sur le fonctionnement de Personalizer.

Sélection des caractéristiques pour Personalizer

La personnalisation du contenu nécessite de disposer d’informations utiles sur le contenu et l’utilisateur. Pour certaines applications et secteurs, certaines caractéristiques des utilisateurs peuvent être directement ou indirectement considérées comme discriminatoires et potentiellement illégales. Consultez les instructions d’intégration et d’utilisation responsable de Personalizer sur l’évaluation des fonctionnalités à utiliser avec Personalizer.

Calcul des récompenses pour Personalizer

Personalizer apprend à améliorer les choix d’action en fonction du score de récompense fourni par la logique métier de votre application. Un score de récompense bien conçu agira comme un proxy à court terme vers un objectif professionnel, lié à la mission d’une organisation. Par exemple, si vous récompensez les clics, Personalizer recherchera les clics au détriment de tout le reste, même si l’objet du clic n’est ni pertinent ni lié à un objectif professionnel. En revanche, un site d’actualités peut souhaiter définir des récompenses liées à quelque chose de plus significatif que les clics, comme « L’utilisateur a-t-il passé suffisamment de temps à lire le contenu ? » ou « L’utilisateur a-t-il cliqué sur des articles ou références pertinents ? » Avec Personalizer, il est facile de lier des métriques étroitement aux récompenses. Toutefois, vous devez veiller à ne pas confondre l’engagement des utilisateurs à court terme avec les résultats souhaités.

Conséquences inattendues des scores de récompense

Même s’ils sont créés avec les meilleures intentions, les scores de récompense peuvent créer des conséquences fortuites ou des résultats inattendus en raison de la façon dont Personalizer classe le contenu.

Penchez-vous sur les exemples suivants :

Le fait de récompenser la personnalisation du contenu vidéo d’après le pourcentage de la longueur de vidéo regardé aura probablement tendance à affecter un rang plus élevé aux vidéos plus courtes qu’aux plus longues.
Le fait de récompenser les partages de médias sociaux, sans analyser les sentiments et la façon dont les partages sont effectués ou le contenu lui-même, peut conduire à obtenir un classement de contenu offensant, non modéré ou incendiaire. Ce type de contenu a tendance à inciter beaucoup d’engagement, mais est souvent nuisible.
Récompenser l’action sur des éléments de l’interface utilisateur que les utilisateurs ne s’attendent pas à voir changer pourrait nuire à la convivialité et à la prévisibilité de l’interface utilisateur. Par exemple, les boutons qui changent d’emplacement ou de fonction sans avertissement peuvent compliquer la productivité de certains groupes d’utilisateurs.

Implémentez ces bonnes pratiques :

Effectuez des expériences hors connexion avec votre système à l’aide de différentes approches de récompense afin de comprendre l’impact et les effets secondaires.
Évaluez vos fonctions de récompense et demandez-vous comment une personne naïve pourrait modifier son interprétation, ce qui peut causer des résultats involontaires ou indésirables.
Archivez les informations et les ressources (telles que les modèles, les stratégies d’apprentissage et autres données) utilisées par Personalizer dans le cadre de son fonctionnement, afin de pouvoir reproduire les résultats.

Recommandations générales pour comprendre et améliorer les performances

Étant donné que Personalizer se basé sur l’apprentissage par renforcement et apprend des récompenses pour faire de meilleurs choix au fil du temps, les performances ne sont pas mesurées dans les termes d’apprentissage supervisé traditionnels utilisés dans les classifieurs, comme la précision et le rappel. Les performances de Personalizer sont directement mesurées en tant que somme des scores de récompense qu’il reçoit de votre application via l’API de récompense.

Lorsque vous utilisez Personalizer, l’interface utilisateur du produit dans le portail Azure fournit des informations sur les performances afin de pouvoir les surveiller et agir en conséquence. Les performances sont visibles des manières suivantes :

Si Personalizer est en mode Apprentissage en ligne, vous pouvez effectuer des évaluations hors connexion.
Si Personalizer est en mode Apprenti, vous pouvez voir les métriques de performances (événements imités et récompenses imitées) dans le volet Évaluation dans le portail Azure.

Nous vous recommandons d’effectuer des évaluations hors connexion fréquentes pour assurer la surveillance. Cette tâche vous aidera à suivre les tendances et à garantir l’efficacité. Par exemple, vous pouvez décider de placer temporairement Personalizer en mode Apprenti si les performances de récompense sont en baisse.

Estimations des performances de Personalizer affichées dans les évaluations hors connexion : Limitations

Nous définissons les « performances » de Personalizer comme les récompenses totales qu’il obtient pendant son utilisation. Les estimations de performances de Personalizer affichées dans les évaluations hors connexion sont calculées plutôt que d’être mesurées. Il est important de comprendre les limitations de ces estimations :

Les estimations sont basées sur les données passées, de sorte que les performances futures peuvent varier à mesure que le monde et vos utilisateurs changent.
Les estimations des performances de référence sont calculées de façon probabiliste. Pour cette raison, la bande de confiance pour la récompense moyenne de référence est importante. L’estimation sera plus précise avec plus d’événements. Si vous utilisez un plus petit nombre d’actions dans chaque appel de classement, l’estimation des performances peut augmenter la confiance, car il existe une probabilité plus élevée que Personalizer puisse choisir l’une d’entre elles (y compris l’action de référence) pour chaque événement.
Personalizer effectue constamment l’apprentissage d’un modèle en quasi temps réel pour améliorer les actions choisies pour chaque événement, et par conséquent, cela affectera le nombre total de récompenses obtenues. Les performances du modèle varient au fil du temps, en fonction des données de formation passées récentes.
Les choix d’exploration et d’action sont des processus stochastiques guidés par le modèle Personalizer. Les nombres aléatoires utilisés pour ces processus stochastiques sont obtenus à partir de l’ID d’événement. Pour garantir la reproductibilité des processus d’exploration et autres processus stochastiques, utilisez le même ID d’événement.
Les performances en ligne peuvent être limitées par l’exploration. La réduction des paramètres d’exploration limite la quantité d’informations collectées pour garder le fil des tendances et des modèles d’utilisation changeants, l’équilibre dépend donc de chaque cas d’usage. Certains cas d’usage justifient de commencer par des paramètres d’exploration plus élevés et de les réduire au fil du temps (par exemple, commencer par 30 % et réduire à 10 %).

Vérifier les modèles existants susceptibles de biaiser accidentellement Personalizer

Les recommandations existantes, la segmentation des clients et les sorties de modèle de propension peuvent être utilisées par votre application en tant qu’entrées pour Personalizer. Personalizer apprend à ignorer les fonctionnalités qui ne contribuent pas aux récompenses. Examinez et évaluez tous les modèles de propension pour déterminer s’ils sont bons pour prédire les récompenses et contenir des biais forts susceptibles de générer des dommages comme effet secondaire. Par exemple, recherchez des recommandations qui peuvent être basées sur des stéréotypes nuisibles. Envisagez d’utiliser des outils tels que FairLearn pour faciliter ce processus.

Évaluations proactives pendant le cycle de vie de votre projet

Pensez à créer des méthodes permettant aux membres d’équipe, aux utilisateurs et aux responsables d’entreprise de partager leurs inquiétudes relatives à l’utilisation responsable, et un processus qui affecte un ordre de priorité à leur résolution. Traitez les tâches relatives à une utilisation responsable comme toute autre tâche transversale dans le cycle de vie d’application, telles que celles liées à l’expérience utilisateur, à la sécurité ou à DevOps. Les tâches liées à l’utilisation responsable et leurs exigences ne doivent pas être considérées sur le tard. L’utilisation responsable doit être discutée et implémentée tout au long du cycle de vie d’application.