你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

个性化体验创建服务的工作原理

重要

从 2023 年 9 月 20 日开始,将无法创建新的个性化体验创建服务资源。 个性化体验创建服务将于 2026 年 10 月 1 日停用。

个性化体验创建服务资源,即你的学习循环,使用机器学习来生成模型,以预测针对你的内容的最常见操作。 该模型是专门使用通过排名和奖励调用发送的数据训练的。 各个循环彼此完全独立。

排名和奖励 API 影响模型

向排名 API 发送包含特征的操作和上下文特征。 排名 API 将决定使用以下操作之一:

  • 攻击:当前模型根据以往的数据确定最佳操作。
  • 探索:选择不同的操作而不是最相关的操作。 在 Azure 门户中为个性化体验创建服务资源配置此百分比

确定奖励分数并将该分数发送到奖励 API。 奖励 API:

  • 通过记录每个排名调用的特征和奖励评分来收集用于训练模型的数据。
  • 根据学习策略中指定的配置,使用该数据更新模型。

系统调用个性化体验创建服务

下图显示了排名和奖励调用的体系结构流程图:

替换文字

  1. 向排名 API 发送包含特征的操作和上下文特征。

    • 个性化体验创建服务会确定是要利用当前模型,还是探索模型的新选项。
    • 排名结果将发送到事件中心。
  2. 最高排名将作为奖励操作 ID 返回到系统。 你的系统会呈现该内容,并会根据你自己的业务规则确定奖励分数。

  3. 你的系统将奖励分数返回给学习循环。

    • 当个性化体验创建服务收到奖励时,会将奖励发送到事件中心。
    • 排名和奖励相关联。
    • 根据关联结果更新 AI 模型。
    • 使用新模型更新推理引擎。

个性化体验创建服务重新训练模型

在 Azure 门户的个性化体验创建服务资源中,个性化体验创建服务根据“模型频率更新”设置重新训练模型。

在 Azure 门户的个性化体验创建服务资源中,个性化体验创建服务根据“数据保留”设置中的天数使用当前保留的所有数据。

个性化体验创建服务幕后的研究

个性化体验创建服务基于强化学习领域的前沿科研成果,包括 Microsoft 研究部门的论文、研究活动和持续探索。

后续步骤

了解个性化体验创建服务的热门方案