你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
从 2023 年 9 月 20 日开始,将无法创建新的个性化体验创建服务资源。 个性化体验创建服务将于 2026 年 10 月 1 日停用。
个性化体验创建服务使用强化学习中的术语。 Azure 门户和 API 中将使用这些术语。
概念性术语
学习循环:你可为受益于个性化的应用程序的每个部分创建一个个性化体验创建服务资源,这称为“学习循环”。 如果需要个性化多个体验,请为每个体验创建一个循环。
模型:个性化体验创建服务模型捕获习得的有关用户行为的数据,从发送到排名和奖励调用的参数组合中获取训练数据,并提供学习策略确定的训练行为。
联机模式:个性化体验创建服务的默认学习行为,其中,你的学习循环使用机器学习来生成模型,以预测针对你的内容的最常见操作。
学徒模式:此学习行为有助于个性化体验创建服务模型进行热启动,以在不影响应用程序效果和操作的情况下进行训练。
学习行为:
- 联机模式:返回最佳操作。 你的模型将使用最佳操作来响应“排名”调用,并会使用“奖励”调用来逐渐学习和改善自己的选择。
- 学徒模式:以学徒身份学习。 你的模型将通过观察现有系统的行为来学习。 排名调用将始终返回应用程序的默认操作(基线)。
个性化体验创建服务配置
个性化体验创建服务是从 Azure 门户配置的。
奖励:配置奖励等待时间、默认奖励和奖励聚合策略的默认值。
探索:配置用于探索的排名调用的百分比
模型更新频率:重新训练模型的频率。
数据保留期:要存储数据的天数。 这可能会影响用于改进学习循环的脱机评估。
使用排名 API 和奖励 API
排名:在给定特征操作和上下文特征的情况下,使用“浏览”或“利用”返回最相关操作(内容项目)。
操作:操作是可供选择的内容项,例如产品或促销。 个性化体验创建服务通过排名 API 选择要向用户显示的最相关操作(返回的奖励操作 ID)。
上下文:若要提供更准确的排名,请提供有关上下文的信息,例如:
- 你的用户。
- 用户所用的设备。
- 当前时间。
- 有关当前情况的其他数据。
- 有关用户或上下文的历史数据。
特定的应用程序可能具有不同的上下文信息。
特征:有关内容项或用户上下文的信息单元。 请确保仅使用聚合的特征。 不要使用特定时间、用户 ID 或其他非聚合数据作为特征。
- 操作特征是有关内容的元数据。
- 上下文特征是要显示内容的上下文相关的元数据。
探索:个性化体验创建服务会探索何时要为用户选择不同的操作,而不是返回最佳操作。 个性化体验创建服务可以避免偏差、停滞,并可通过探索来适应现行的用户行为。
习得的最佳操作:个性化体验创建服务使用当前模型根据以往的数据确定最佳操作。
试验持续时间:个性化体验创建服务等待返回奖励的时间长短,从该事件发生排名调用开始计算。
非活动事件:非活动事件是调用了排名,但不确定用户是否会看到结果(因为客户端应用程序的决策)的事件。 使用非活动事件可以创建和存储个性化结果,然后决定放弃这些结果,而不会影响机器学习模型。
奖励:度量用户如何对排名 API 返回的奖励操作 ID 做出响应,评分为 0 到 1。 0 到 1 的值由业务逻辑设置,依据是所做的选择对实现个性化业务目标提供了多大的帮助。 学习循环不会将此奖励存储为单独的用户历史记录。
评估
脱机评估
评估:脱机评估根据应用程序的数据确定循环的最佳学习策略。
学习策略:个性化体验创建服务如何训练每个事件的模型,将由影响机器学习算法工作方式的某些参数确定。 新的学习循环从默认的学习策略开始,这会产生适度的性能。 运行评估时,个性化体验创建服务会创建新的学习策略,专门针对你的循环用例进行优化。 对于在评估过程中生成的每个特定循环,个性化体验创建服务将通过优化的策略显著提高性能。 在 Azure 门户中的个性化体验创建服务资源的“模型和学习设置”上,学习策略被命名为“学习设置”。
学徒模式评估
学徒模式提供以下评估指标:
- 基线 - 平均奖励:应用程序默认(基线)的平均奖励。
- 个性化体验创建服务 - 平均奖励:个性化体验创建服务可能已达到的总奖励的平均奖励。
- 平均滚动奖励:基线和个性化体验创建服务奖励的比率 - 在最近 1000 个事件中进行规范化。