Partager via


Fonctionnement de Personalizer

Important

À compter du 20 septembre 2023, vous ne pourrez pas créer de ressources Personalizer. Le service Personalizer est mis hors service le 1er octobre 2026.

La ressource Personalizer, votre boucle d’apprentissage, utilise le Machine Learning pour générer le modèle qui prédit la première action pour votre contenu. L’apprentissage du modèle est effectué exclusivement sur les données que vous lui avez envoyées avec les appels de classement et de récompense. Chaque boucle est complètement indépendante des autres.

Les API de classement et de récompense ont un impact sur le modèle

Vous envoyez des actions avec caractéristiques et des caractéristiques de contexte à l’API de classement. L’API de classement décide d’utiliser :

  • Exploit : le modèle actuel pour déterminer la meilleure action en fonction des données antérieures.
  • Explore : sélectionne une action différente de l’action classée en premier. Vous configurez ce pourcentage pour votre ressource Personalizer dans le Portail Azure.

Vous déterminez le score de récompense et envoyez ce score à l’API de récompense. L’API de récompense :

  • Collecte des données pour entraîner le modèle en enregistrant les caractéristiques et les scores de récompense de chaque appel du classement.
  • Utilise ces données pour mettre à jour le modèle en fonction de la configuration spécifiée dans la stratégie d’apprentissage.

Appel de Personalizer par votre système

L’illustration suivante montre l’architecture du flux des appels des API de classement et de récompense :

texte de remplacement

  1. Vous envoyez des actions avec caractéristiques et des caractéristiques de contexte à l’API de classement.

    • Personalizer décide d’exploiter le modèle actuel ou d’explorer de nouveaux choix pour le modèle.
    • Le résultat du classement est envoyé à EventHub.
  2. Le meilleur résultat est retourné à votre système comme ID d’action récompensée. Votre système présente ce contenu et détermine un score de récompense basé sur vos propres règles métier.

  3. Votre système renvoie le score de récompense à la boucle d’apprentissage.

    • Quand Personalizer reçoit la récompense, elle est envoyée à EventHub.
    • Le classement et la récompense sont mis en corrélation.
    • Le modèle d’intelligence artificielle est mis à jour en fonction des résultats de la corrélation.
    • Le moteur d’inférence est mis à jour avec le nouveau modèle.

Personalizer effectue à nouveau l’apprentissage de votre modèle

Personalizer effectue à nouveau l’apprentissage de votre modèle en fonction du paramètre Fréquence de mise à jour du modèle sur votre ressource Personalizer dans le Portail Azure.

Personalizer utilise toutes les données actuellement conservées, en fonction du paramètre Conservation des données en nombre de jours sur votre ressource Personalizer dans le Portail Azure.

Recherches derrière Personalizer

Personalizer est basé sur la science et la recherche de pointe dans le domaine de l’apprentissage par renforcement, notamment sur des articles, des activités de recherche et des domaines en cours d’exploration de Microsoft Research.

Étapes suivantes

En savoir plus sur les principaux scénarios pour Personalizer