Share via


獎勵分數表示個人化成功

重要

從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將於 2026 年 10 月 1 日淘汰。

獎勵分數會指出用戶個人化選擇 RewardActionID 所產生的程度。 獎勵分數的值取決於您的商業規則,根據使用者行為的觀察。

個人化工具會藉由評估獎勵來定型其機器學習模型。

瞭解如何在個人化工具資源的 Azure 入口網站 中設定預設獎勵分數。

使用 Reward API 將獎勵分數傳送給個人化工具

獎勵會透過 獎勵 API 傳送至個人化工具。 一般而言,獎勵是從0到1的數位。 具有 -1 值的負獎勵在某些情況下是可能的,只有在您遇到增強式學習 (RL) 時,才應該使用。 個人化工具會定型模型,以在一段時間內達到最高可能的獎勵總和。

獎勵會在使用者行為發生之後傳送,這可能是幾天后。 個人化工具將等候的時間上限,直到事件被視為沒有獎勵,或預設獎勵是在 Azure 入口網站 中設定獎勵等候時間

如果在獎勵等候時間內尚未收到事件的獎勵分數,則會套用預設獎勵 一般而言, 預設獎勵 設定為零。

要考慮獎勵的行為和數據

針對獎勵分數的內容,請考慮這些訊號和行為:

  • 當涉及選項時,直接使用者輸入建議 (“您的意思是 X 嗎?
  • 會話長度。
  • 會話之間的時間。
  • 用戶互動的情感分析。
  • Bot 詢問使用者關於實用性、正確性的意見反應的直接問題和迷你問卷。
  • 回應警示,或延遲回應警示。

撰寫獎勵分數

獎勵分數必須在商業規則中計算。 分數可以表示為:

  • 傳送一次單一號碼
  • 立即傳送的分數(例如 0.8)和稍後傳送的額外分數(通常是 0.2)。

默認獎勵

如果在 Reward Wait Time未收到任何獎勵,則排名呼叫後的持續時間,個人化工具會隱含地將預設獎勵套用至該排名事件。

使用多種因素建立獎勵

為了有效個人化,您可以根據多個因素來建立獎勵分數。

例如,您可以套用這些規則來個人化影片內容清單:

用戶行為 部分分數值
用戶按兩下頂端專案。 +0.5 獎勵
用戶開啟該專案的實際內容。 +0.3 獎勵
用戶觀看了5分鐘的內容或30%,只要較長。 +0.2 獎勵

然後,您可以將總獎勵傳送至 API。

多次呼叫 Reward API

您也可以使用相同的事件標識碼來呼叫 Reward API,並傳送不同的獎勵分數。 當個人化工具取得這些獎勵時,它會藉由匯總個人化工具組態中所指定的獎勵來判斷該事件的最終獎勵。

匯總值:

  • 首先:取得為事件收到的第一個獎勵分數,並捨棄其餘的分數。
  • 和:接受針對 eventId 收集的所有獎勵分數,並將它們加在一起。

在獎勵等候時間之後收到之事件的所有獎勵都會遭到捨棄,且不會影響模型的定型。

藉由加總獎勵分數,您的最終獎勵可能會超出預期的分數範圍。 這不會讓服務失敗。

計算獎勵分數的最佳做法

  • 考慮成功個人化的真正指標:在點擊方面很容易思考,但良好的獎勵是根據您希望用戶 達到 的目標,而不是您希望人們 執行的動作。 例如,點擊獎勵可能會導致選取容易點擊的內容。

  • 針對個人化運作效果如何使用獎勵分數:個人化電影建議可能會讓用戶觀看影片並給予高評等。 由於電影收視率可能取決於許多事情(表演的品質,使用者的心情),所以對個人化工作有多好,這不是一個很好的獎勵信號。 然而,觀看影片前幾分鐘的使用者可能是一個更好的個人化效果信號,並在 5 分鐘後傳送獎勵 1 將是更好的信號。

  • 獎勵僅適用於 RewardActionID:個人化工具會套用獎勵,以瞭解 RewardActionID 中所指定動作的效力。 如果您選擇顯示其他動作,而且使用者選取了這些動作,則獎勵應為零。

  • 請考慮非預期的結果:建立獎勵函式,以產生具有道德和負責任使用責任結果的獎勵函式。

  • 使用累加獎勵:為較小的用戶行為新增部分獎勵可協助個人化工具達成更好的獎勵。 這個累加獎勵可讓演算法知道它更接近吸引使用者進入最終想要的行為。

    • 如果您要顯示電影清單,如果使用者將滑鼠停留在第一個影片上一段時間才能查看詳細資訊,您可以判斷發生某些用戶參與。 行為可以計算獎勵分數為0.1。
    • 如果用戶開啟頁面,然後結束,獎勵分數可以是0.2。

奬勵等待時間

個人化工具會將排名通話的資訊與 Reward 通話中傳送的獎勵相互關聯,以定型模型,而模型可能會在不同的時間出現。 個人化工具會等候已定義有限時間的獎勵分數,從對應的 Rank 呼叫發生時開始。 即使排名呼叫是使用延後啟用](concept-active-inactive-events.md),也是如此。

如果 Reward Wait Time 到期且沒有獎勵資訊,則會將預設獎勵套用至該事件以進行訓練。 您可以選取 10 分鐘、4 小時、12 小時或 24 小時的獎勵等候時間。 如果您的案例需要較長的獎勵等候時間(例如行銷電子郵件行銷活動),我們會提供較長等候時間的私人預覽。 在 Azure 入口網站 中開啟支援票證,以連絡小組,並查看您是否符合資格,並可提供給您。

獎勵等候時間的最佳做法

請遵循這些建議以取得更好的結果。

  • 儘可能縮短獎勵等候時間,同時留下足夠的時間來取得使用者意見反應。

  • 請勿選擇比取得意見反應所需時間短的持續時間。 例如,如果您的部分獎勵是在用戶觀看影片 1 分鐘之後傳入的,實驗長度應該至少是兩倍。

下一步