Share via


什麼是增強式學習?

重要

從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將于 2026 年 10 月 1 日淘汰。

增強式學習是機器學習的一種方法,可藉由從其使用中取得意見反應來學習行為。

增強式學習的運作方式如下:

  • 提供制定行為的機會或自由程度,例如做出決策或選擇。
  • 提供環境和選擇的相關內容資訊。
  • 提供有關行為如何達到特定目標的意見反應。

雖然增強式學習有許多子類型和樣式,但這就是個人化工具中概念的運作方式:

  • 您的應用程式可讓您從替代專案清單中顯示一段內容。
  • 您的應用程式提供每個替代專案和使用者內容的相關資訊。
  • 您的應用程式會 計算獎勵分數

與增強式學習的某些方法不同,個人化工具不需要模擬才能運作。 其學習演算法旨在回應外部世界(與控制它),並從每個資料點學習,並瞭解這是一個獨特的機會,花費時間和金錢來創造,並有一個非零的遺憾(可能獎勵的損失),如果次佳的效能發生。

個人化工具會使用哪種類型的增強式學習演算法?

目前版本的個人化工具會使用 關聯式強盜 ,這是一種增強式學習的方法,其圍繞在指定內容中做出個別動作之間的決策或選擇。

判定 記憶體 ,已定型以擷取最佳可能決策的模型,因為有一個內容會使用一組線性模型。 這些已重複顯示業務結果,而且是經過證實的方法,部分是因為他們可以非常快速地從真實世界學習,而不需要多階段訓練,而部分是因為它們可以補充監督式學習模型和深度神經網路模型。

探索/最佳動作流量配置是隨機遵循探索所設定的百分比,而探索的預設演算法是 epsilon-greedy。

關聯式強盜的歷史

John Langford 創造了一個名字關聯式強盜(朗福德和張 [2007]) 來描述一個可調整的增強式學習子集,並致力於十六篇論文,以改善我們對如何在此範例中學習的理解:

  • 貝格爾齊默等人 [2011]
  • Dudík et al. [2011a, b]
  • Agarwal 等人 [2014, 2012]
  • 貝格爾齊默和蘭福德 [2009]
  • Li et al. [2010]

John 先前還就聯合預測(ICML 2015)、關聯式強盜理論(NIPS 2013)、主動學習(ICML 2009)和範例複雜度界限(ICML 2003)等主題提供了數個教學課程。

個人化工具會使用哪些機器學習架構?

個人化工具目前使用 Vowpal Wabbit 作為機器學習的基礎。 此架構允許在使用所有事件進行個人化排名和定型模型時的最大輸送量和最低延遲。

參考資料

下一步

離線評估