增強式學習是什麼?
重要
從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將於 2026 年 10 月 1 日淘汰。
增強式學習是一種機器學習方法,會藉由從使用過程取得回饋以學習行為模式。
增強式學習的運作方式是:
- 提供制定行為的機會或自由度,例如進行決策或選擇。
- 提供環境和選擇的內容資訊。
- 提供該行為達成多少特定目標的意見反應。
雖然增強式學習有許多子類型和樣式,但以下是個人化工具中適用的概念:
- 應用程式會提供機會來顯示替代項目清單中的一段內容。
- 應用程式會提供關於每一種替代項目與使用者內容的資訊。
- 應用程式會計算「報酬分數」。
不同於增強式學習的一些方法,個人化工具不需要有模擬環境就能工作。 其學習演算法的設計目的是要對外界做出回應 (而非對其進行控制),並從每個資料點進行學習,因為其了解這是需要花費時間和金錢才能建立的獨特機會,如果效能未達到最佳狀況,將可能造成遺憾 (損失可能的報酬)。
個人化工具使用何種類型的增強式學習演算法?
個人化工具的目前版本會使用內容相關吃角子老虎機,這是根據要在給定內容下於不連續動作之間做出決策或選擇的情形所制定的一種增強式學習方法。
「決策記憶體」是為了在給定內容下擷取最佳可能決策而定型的模型,其會使用一組線性模型。 這些經過實證的方法會一再顯示商務結果,部分原因是其可以非常快速地從現實世界中學習,而不需要完成多階段的訓練,另外部分原因則是其可以輔助監督式學習模型和深度神經網路模型。
探索 / 最佳動作流量會遵循針對探索所設定的百分比來隨機配置,而且用於探索的預設演算法是 epsilon-greedy。
內容相關吃角子老虎機的歷史
John Langford 創造了「內容相關吃角子老虎機」(Contextual Bandits) 這個名詞 (Langford and Zhang [2007]),以便描述容易處理的增強式學習子集,並且他曾寫出六篇論文來讓我們更加了解如何在此範例中進行學習:
- Beygelzimer et al. [2011]
- Dudík et al. [2011a, b]
- Agarwal et al. [2014, 2012]
- Beygelzimer and Langford [2009]
- Li et al. [2010]
John 先前也曾提供數個關於各項主題的教學課程,例如 Joint Prediction (ICML 2015)、Contextual Bandit Theory (NIPS 2013)、Active Learning (ICML 2009) 和 Sample Complexity Bounds (ICML 2003)
個人化工具使用何種機器學習架構?
個人化工具目前使用 Vowpal Wabbit 來作為機器學習的基礎。 此架構可在進行個人化排名和使用所有事件來將模型定型時,產生最大的輸送量和最低的延遲。
參考資料
- 在低技術債務下做出內容相關決策
- 公平分類的縮減方法
- 在非穩定世界中的有效率內容相關吃角子老虎機
- 剩餘損耗預測:沒有累加式意見反應的增強式學習
- 使用增強式學習來將指示和視覺化觀察對應至動作
- 學習成為比老師更加優秀的搜尋者