強化学習とは

2024-09-03

重要

2023 年 9 月 20 日以降は、新しい Personalizer リソースを作成できなくなります。 Personalizer サービスは、2026 年 10 月 1 日に廃止されます。

強化学習は、その使用からフィードバックを得ることによって動作を学習する機械学習へのアプローチです。

強化学習は、次のように動作します。

意思決定や選択など、動作を実行する機会または自由度を提供する。
環境と選択肢に関するコンテキスト情報を提供する。
動作が特定の目標をどの程度達成しているかについてフィードバックを与える。

強化学習に多くのサブタイプとスタイルがある中で、これは Personalizer の概念のしくみです。

アプリケーションは、選択肢のリストから 1 つのコンテンツを表示する機会を提供します。
アプリケーションは、それぞれの選択肢とユーザーのコンテキストに関する情報を提供します。
アプリケーションは、"報酬スコア" を計算します。

強化学習へのいくつかのアプローチとは異なり、Personalizer での作業にはシミュレーションは必要ありません。その学習アルゴリズムは、(外部の世界を制御するのではなく) 外部の世界に反応するように設計されています。さらに、作成するのに時間と費用がかかる一意の機会であること、および最適状態には及ばないパフォーマンスが発生した場合に後悔がゼロではないこと (報酬の可能性の損失があること) を理解したうえで、各データポイントから学習するように設計されています。

Personalizer で使用される強化学習アルゴリズムの種類

最新のバージョンの Personalizer では Contextual Bandits を使用します。これは、特定のコンテキストにおいて個別のアクション間で意思決定や選択を行うことを中心とした強化学習へのアプローチです。

特定の与えられたコンテキストに対して可能な限り最善の決定を取得するようにトレーニングされたモデルである "デシジョンメモリ" では、線形モデルのセットを使用します。 1 つにはマルチパストレーニングを必要とせずに現実世界から非常に迅速に学習することができること、また 1 つには教師付き学習モデルおよびディープニューラルネットワークモデルを補完できることから、これらはビジネス上の成果を繰り返し収めた、証明されたアプローチです。

探索および最適なアクション活用トラフィック割り当ては、探索用に設定された割合に従ってランダムに行われ、探索の既定のアルゴリズムは Epsilon-Greedy です。

Contextual Bandits の歴史

Contextual Bandits は、強化学習の扱いやすいサブセットを記述するために John Langford 氏によって作られた名前です (Langford および Zhang [2007])。氏は、このパラダイムでの学習方法の理解を深めるために五指に余る論文に取り組んできました。

Beygelzimer et al. [2011]
Dudík et al. [2011a, b]
Agarwal et al. [2014, 2012]
Beygelzimer と Langford [2009]
Li et al. [2010]

また、John は、Joint Prediction (ICML 2015)、Contextual Bandit Theory (NIPS 2013)、Active Learning (ICML 2009)、Sample Complexity Bounds (ICML 2003) などのトピックに関するいくつかのチュートリアルも以前に作成しました

Personalizer で使用される機械学習フレームワーク

Personalizer では、現在、機械学習の基盤として Vowpal Wabbit を使用しています。このフレームワークは、パーソナル化の順位付けを行い、すべてのイベントでモデルをトレーニングするときに、最大のスループットと最小の待ち時間を実現します。

リファレンス

次のステップ

オフライン評価