什麼是個人化工具？

發行項
01/19/2024

重要

從 2023 年 9 月 20 日起，您將無法建立新的個人化工具資源。個人化工具服務將于 2026 年 10 月 1 日淘汰。

注意

自 2023 年 7 月起，Azure AI 服務包含先前稱為認知服務和 Azure 應用 AI 服務的所有項目。價格沒有變更。 認知服務和 Azure 應用 AI 的名稱會繼續用於 Azure 計費、成本分析、價目表和價格 API。應用程式開發介面 (API) 或 SDK 沒有任何中斷性變更。

Azure AI 個人化工具是一種 AI 服務，您的應用程式會使用 增強式學習 大規模做出更明智的決策。個人化工具會處理應用程式、案例和/或使用者狀態的相關資訊（內容），以及一組可能的決策和相關屬性（動作），以判斷要做出的最佳決策。您應用程式的意見反應會傳送給個人化工具，以瞭解如何以近乎即時的方式改善其決策能力。

個人化工具可以決定在各種案例中採取的最佳動作：

電子商務：應向客戶顯示哪些產品，以最大化購買的可能性？
內容建議：應該顯示哪些文章來增加點擊率？
內容設計：應該在哪裡放置廣告，以優化網站上的使用者參與度？
通訊：何時及應如何傳送通知，以最大化回應的機會？

若要開始使用個人化工具，請遵循 快速入門手冊 ，或使用這個互動式示範在瀏覽器中試用個人化工具。

本檔包含下列類型的文章：

快速入門 提供逐步指示，引導您完成設定和範例程式碼，以開始向服務提出 API 要求。
操作指南 包含使用個人化工具功能和進階功能的指示。
程式碼範例 示範如何使用個人化工具，並協助您輕鬆地將應用程式與服務介面。
教學課程 是實作個人化工具做為更廣泛商務解決方案的一部分的逐步解說。
概念提供個人化工具特性、功能和基本概念的進一步詳細資料。

個人化工具如何運作？

個人化工具會使用增強式學習，為所有使用者選取指定內容 的最佳動作，以最大化平均獎勵。

內容：描述與做出決策相關的應用程式、案例或使用者狀態的資訊。
- 範例：流覽網站之使用者的位置、裝置類型、年齡和我的最愛主題。
動作：可選擇的一組離散專案，以及描述每個專案的屬性。
- 範例：每篇文章中討論的一組新聞文章和主題。
獎勵：介於 0 到 1 之間的數值分數，指出決定是壞（0），還是好（1）
- 範例：「1」表示使用者按下建議的文章，而「0」則表示使用者沒有。

排名和獎勵 API

個人化工具可讓您只使用兩個主要 API，利用增強式學習的強大功能和彈性。

每次做出決策時，您的應用程式都會呼叫排名 API 。應用程式會傳送 JSON，其中包含一組動作、描述每個動作的功能，以及描述目前內容的功能。每個排名 API 呼叫稱為事件 ，並以唯一 事件識別碼 來標注。接著，個人化工具會傳回最佳動作的識別碼，以最大化基礎模型所決定的總平均獎勵。

每當有意見反應可協助個人化工具瞭解排名 呼叫中 傳回的動作識別碼所提供的值時，您的應用程式就會呼叫 Reward API 。例如，如果使用者按一下建議的新聞文章，或完成購買建議的產品。對 Reward API 的呼叫可以即時進行（在進行排名呼叫之後）或延遲，以更符合案例的需求。獎勵分數取決於您的商務計量和目標，而且可由應用程式中的演算法或規則產生。分數是介於 0 到 1 之間的實值數位。

學習模式

學徒模式類似于學徒如何從觀察專家學習工藝，學徒模式 可讓個人化工具藉由觀察您應用程式的目前決策邏輯來學習。這有助於減輕新未定型模型所謂的「冷啟動」問題，並可讓您驗證傳送至個人化工具的動作和內容功能。在「學徒」模式中，每個對排名 API 的呼叫都會 傳回基準動作 或 預設動作 ，也就是應用程式在沒有使用個人化工具的情況下所採取的動作。這會由您的應用程式傳送至排名 API 中的個人化工具，做為一組可能動作中的第一個專案。
線上模式 個人化工具會傳回最佳動作，因為內容是由基礎 RL 模型決定，並探索其他可能改善效能的動作。個人化工具會從獎勵 API 呼叫中提供的意見反應中學習。

請注意，個人化工具會使用所有使用者的集體資訊，根據目前的內容來瞭解最佳動作。服務不會：

保存和管理使用者設定檔資訊。不應將唯一的使用者識別碼傳送至個人化工具。
記錄個別使用者的喜好設定或歷程記錄資料。

範例案例

以下是一些範例，其中個人化工具可用來選取要為使用者轉譯的最佳內容。

內容類型	動作 {features}	內容功能	傳回的獎勵動作識別碼（顯示此內容）
新聞文章	a. `The president...`， {national， politics， [text]} b. `Premier League ...` {global， sports， [text， image， video]} c. `Hurricane in the ...` {regional， weather， [text，image]}	Country='USA'， Recent_Topics=（'politics'， 'business'）， Month='October'	a `The president...`
電影	1. `Star Wars` {1977， [動作，冒險，幻想]，喬治盧卡斯} 2. `Hoop Dreams` {1994， [紀錄片，體育]，史蒂夫詹姆斯} 3. `Casablanca` {1942， [浪漫，戲劇，戰爭]，邁克爾·柯蒂茲}	Device='smart TV'， Screen_Size='large'， Favorite_Genre='classics'	3. `Casablanca`
電子商務產品	i. `Product A` {3 公斤， $$$$，在 1 天內交付} ii. `Product B` {20 公斤， $$，在 7 天內交付} iii. `Product C` {3 公斤， $$$， 2 天內交付}	Device='i電話'， Spending_Tier='low'， Month='June'	ii. `Product B`

情節需求

當您的案例有下列情況時，請使用個人化工具：

每個個人化事件中要選取的一組有限動作或專案。我們建議在每個排名 API 呼叫中不超過 ~50 個動作。如果您有一組較大的可能動作，建議您使用建議引擎或其他機制來減少呼叫排名 API 之前的動作清單。
描述動作的資訊（ 動作功能 ）。
描述目前內容的資訊（ 內容相關功能 ）。
足夠的資料量可讓個人化工具學習。一般而言，我們建議每天至少 1,000 個事件，讓個人化工具有效地學習。如果個人化工具未收到足夠的資料，服務會花費較長的時間來判斷最佳動作。

使用負責任 AI

在 Microsoft 中，我們致力於 AI 的推進，其原則將人員放在首位。個人化工具服務中可用的 AI 模型具有顯著的潛在優點，但如果沒有仔細的設計和深思熟慮的緩和措施，這類模型就有可能產生不正確或甚至有害的內容。 Microsoft 已進行大量投資，以協助防範濫用和意外傷害，併入 Microsoft 對負責任 AI 使用的原則、建置內容篩選器以支援客戶，以及為上線的客戶提供負責任的 AI 實作指引。請參閱個人化工具的負責任 AI 檔。

將個人化工具整合到應用程式中

設計和規劃動作和 內容。 決定如何將意見反應解譯為獎勵分數。

您建立的每個個人化工具資源都會定義為一個 學習迴圈 。迴圈會同時接收該內容或使用者體驗的 Rank 和 Reward 呼叫，並訓練基礎 RL 模型。有

資源類型	目的
學徒模式 - `E0`	在使用線上模式來學習生產環境中更好的原則之前，將個人化工具定型以模擬您目前的決策邏輯，而不會影響現有的應用程式。
線上模式 - 標準、 `S0`	個人化工具會使用 RL 來判斷生產環境中的最佳動作。
線上模式 - 免費、 `F0`	在有限的非生產環境中試用個人化工具。

將個人化工具新增至您的應用程式、網站或系統：

在您的應用程式、網站或系統中，將排名 呼叫新增至個人化工具，以判斷最佳動作。
使用最佳動作，如您案例中的獎勵動作識別碼 所指定 。

將 商務邏輯 套用至使用者行為或意見反應資料，以判斷獎勵分數。例如：

行為	計算獎勵分數
使用者選取個人化工具建議的新聞文章	1
使用者選取個人化工具未建議的新聞文章	0
使用者猶豫不決地選擇新聞文章，不經意地捲動，最終選擇了個人化工具建議的新聞文章	0.5

新增獎勵 通話，傳送 0 到 1 之間的獎勵分數
- 在收到意見反應之後立即收到。
- 或稍後在預期延遲意見反應的案例中。
在個人化工具收到重要資料以做出線上決策的一段時間後，使用離線評估來評估您的迴圈。離線評估可讓您測試及評估個人化工具服務的有效性，而不需要變更程式碼或使用者影響。

下一步

個人化工具快速入門