Qu’est-ce que l’apprentissage par renforcement ?

Important

À compter du 20 septembre 2023, vous ne pourrez pas créer de ressources Personalizer. Le service Personalizer est mis hors service le 1er octobre 2026.

L’apprentissage par renforcement est une approche du machine learning qui apprend des comportements en obtenant un feedback sur son utilisation.

L’apprentissage par renforcement fonctionne :

  • En fournissant une opportunité ou un degré de liberté pour décréter un comportement, comme prendre des décisions ou faire des choix.
  • En fournissant des informations contextuelles sur l’environnement et sur les choix.
  • En fournissant un feedback sur la façon dont le comportement atteint un certain objectif.

Bien qu’il existe de nombreux sous-types et styles d’apprentissage par renforcement, voici comment le concept fonctionne dans Personalizer :

  • Votre application donne la possibilité de montrer un élément de contenu provenant d’une liste d’alternatives.
  • Votre application fournit des informations sur chaque alternative et sur le contexte de l’utilisateur.
  • Votre application calcule un score de récompense.

Contrairement à certaines approches d’apprentissage par renforcement, Personalizer ne nécessite pas de simulation pour fonctionner. Ses algorithmes d’apprentissage sont conçus pour réagir à un monde extérieur (au lieu de le contrôler) et pour apprendre de chaque point de données, tout en sachant qu’il s’agit d’une opportunité unique dont la création demande du temps et de l’argent, et qu’il y a un regret non nul (perte de récompense possible) dans le cas d’une performance non optimale.

Quel type d’algorithmes d’apprentissage par renforcement Personalizer utilise ?

La version actuelle de Personalizer utilise l’approche des bandits contextuels, qui est une approche de l’apprentissage par renforcement structurée autour de la prise de décisions ou de choix entre des actions discrètes, dans un contexte donné.

La mémoire des décisions, le modèle qui a été entraîné pour capturer la meilleure décision possible dans un contexte donné, utilise un ensemble de modèles linéaires. Ceux-ci ont montré à de nombreuses reprises de bons résultats métier et constituent une approche éprouvée, en partie parce qu’ils peuvent apprendre du monde réel très rapidement sans nécessiter un entraînement en plusieurs passes, et en partie parce qu’ils peuvent compléter des modèles d’apprentissage supervisé et des modèles neuronaux profonds.

L’allocation du trafic d’exploration/meilleure action est effectuée de façon aléatoire en suivant le pourcentage défini pour l’exploration ; l’algorithme par défaut pour l’exploration est « epsilon-greedy ».

Historique des bandits contextuels

John Langford a utilisé le nom de « Contextual Bandits » (Bandits contextuels) (Langford et Zhang [2007]) pour décrire un sous-ensemble maniable d’apprentissage par renforcement et a travaillé sur une demi-douzaine d’articles visant à améliorer notre compréhension de la façon d’apprendre dans ce paradigme :

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer and Langford [2009]
  • Li et al. [2010]

John a également produit plusieurs tutoriels sur des sujets comme la prédiction mixte (ICML 2015), la théorie des bandits contextuels (NIPS 2013), l’apprentissage actif (ICML 2009) et des exemples de limites de complexité (ICML 2003)

Quelle infrastructure de machine learning Personalizer utilise ?

Personalizer utilise actuellement Vowpal Wabbit comme base pour le machine learning. Cette infrastructure permet un débit maximal et une latence la moins élevée possible lors des classements de personnalisation et de l’entraînement du modèle avec tous les événements.

References

Étapes suivantes

Évaluation hors connexion