設定個人化工具學習行為
重要
從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將于 2026 年 10 月 1 日淘汰。
學徒模式 可讓您信任個人化工具服務及其機器學習功能,並保證服務會傳送可從中學習的資訊,而不會危及線上流量。
設定新手模式
針對個人化工具資源登入 Azure 入口網站 。
在 [設定] 頁面的 [模型設定] 索引標籤上,選取 [新手模式],然後選取 [儲存]。
現有應用程式的變更
您現有的應用程式不應該變更它目前選取要顯示之動作的方式,或應用程式如何決定該動作的值、 獎勵 。 應用程式的唯一變更可能是傳送至個人化工具排名 API 的動作順序。 應用程式目前顯示的動作會傳送為 動作清單中的第一個動作 。 排名 API 會 使用此第一個動作來定型您的個人化工具模型。
設定您的應用程式以呼叫排名 API
若要將個人化工具新增至您的應用程式,您必須呼叫排名和獎勵 API。
在 現有應用程式邏輯中的點之後,新增排名 API 呼叫,您可以在其中判斷動作清單及其功能。 動作清單中的第一個動作必須是您現有邏輯所選取的動作。
設定您的程式碼以顯示與排名 API 回應的 獎勵動作識別碼 相關聯的動作。
設定您的應用程式以呼叫 Reward API
注意
在學徒模式中,獎勵 API 呼叫不會影響訓練。 服務會藉由比對應用程式目前的邏輯或預設動作來學習。 不過,在此階段實作 Reward 呼叫有助於確保稍後在 Azure 入口網站中使用簡單切換,順暢地轉換到線上模式。 此外,系統會記錄獎勵,讓您分析目前邏輯的執行程度,以及收到多少獎勵。
使用您現有的商務邏輯來計算 所顯示動作的獎勵 。 值的範圍必須介於 0 到 1 之間。 使用 Reward API 將此獎勵傳送給個人化工具。 根據商務邏輯,獎勵值不會立即出現,而且可能會延遲一段時間。
如果您未在設定 的 Reward 等候時間 內傳回獎勵,則會改為記錄預設獎勵。
評估學徒模式
在 Azure 入口網站中,於個人化工具資源的 [監視] 頁面上,檢閱 [比對效能]。
學徒模式提供下列 評估計量 :
- 比較基準 – 平均獎勵:應用程式預設的平均獎勵 (基準)。
- 個人化工具 – 平均獎勵:個人化工具可能達到的總獎勵 平均值。
- 最近 1000 個事件的 獎勵成就比例:比較基準和個人化工具獎勵的比率 – 在最近 1000 個事件中正規化。
將行為切換至線上模式
當您判斷個人化工具的定型平均為 75-85% 的滾動平均值時,模型已準備好切換到線上模式。
在個人化工具資源的 Azure 入口網站中,在 [設定] 頁面的 [模型設定] 索引標籤上,選取 *[線上模式],然後選取 [儲存]。
您不需要對排名和獎勵 API 呼叫進行任何變更。