你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
个性化体验创建服务的特征和局限性
重要
从 2023 年 9 月 20 日开始,将无法创建新的个性化体验创建服务资源。 个性化体验创建服务将于 2026 年 10 月 1 日停用。
Azure AI 个性化体验创建服务可以在许多方案中运行。 若要了解可以在何处应用个性化体验创建服务,请确保方案要求符合个性化体验创建服务的工作预期。 若要了解是否应使用个性化体验创建服务以及如何将其集成到应用程序中,请参阅个性化体验创建服务的用例。 查找有关为个性化体验创建服务的使用选择用例、设计特征和奖励函数的条件和指导。
在阅读本文之前,了解一些有关个性化体验创建服务工作原理的背景信息会很有帮助。
为个性化体验创建服务选择特征
个性化内容基于这样一个理念:提供与内容和用户相关的有用信息。 就某些应用程序和行业来说,某些用户特征可能会被直接或间接地视为带有歧视的特征,因此可能是非法的。 请参阅个性化体验创建服务集成和负责任使用准则,了解如何评估与个性化体验创建服务一起使用的特征。
计算个性化体验创建服务的奖励
个性化体验创建服务根据应用程序业务逻辑提供的奖励分数来学习改进操作选择。 适当的奖励分数可以充当实现业务目标所需的短期跳板,而业务目标则与组织的使命密不可分。 例如,如果对点击率进行奖励,则会导致个性化体验创建服务寻求提高点击率而牺牲其他所有目标,即使所点击的东西只会导致用户分神或者与业务成果不相关。 与之相反,新闻站点可能需要将奖励与比点击率更有意义的事项挂钩,例如,“用户是否花了足够的时间来阅读内容?”、“他们是否点击了相关的文章或参考资料?”。使用个性化体验创建服务可以轻松地将指标与奖励紧密联系在一起。 但是,请小心不要将用户的短期参与和所需的成果相混淆。
因奖励分数引发的意外结果
即使设立奖励分数的用心是良好的,也可能会由于个性化体验创建服务对内容进行排名的方式而产生意外的后果或结果。
请开考虑以下示例:
- 如果按照已观看视频长度占整个视频长度的百分比来奖励个性化创作的视频内容,则可能导致短视频在排名时比长视频占优。
- 如果对社交媒体共享数目进行奖励,而不对共享方式或内容本身进行情绪分析,则可能导致冒犯性的、未受监管的或煽动性的内容在排名时占优。 这种内容往往会引发用户大量的参与,但通常是有害的。
- 如果对用户界面元素上的操作进行奖励,而用户并不期望更改这些元素,则可能会干扰用户界面的可用性和可预测性。 例如,在没有警告的情况下更改位置或用途的按钮可能使得某些用户群更难保持工作效率。
实施以下最佳做法:
- 使用不同的奖励方法对系统运行脱机试验,了解相关的影响和副作用。
- 对奖励函数进行评估,问自己这样一个问题:假如一个非常幼稚的人出现了理解偏差,那么可能会出现什么样的意外或不良后果?
- 存档供个性化体验创建服务正常运行所需使用的信息和资产,例如模型、学习策略以及其他数据,使结果可重现。
有关了解和改进性能的一般准则
由于个性化体验创建服务基于强化学习并从奖励中学习,以随着时间的推移做出更好的选择,因此性能不是用分类器中使用的传统监督式学习术语(例如精准率和召回率)来衡量的。 个性化体验创建服务的性能直接衡量为它通过奖励 API 从应用程序收到的奖励分数之和。
使用个性化体验创建服务时,Azure 门户中的产品用户界面会提供性能信息,以便你可以对其进行监视和操作。 可通过以下方式查看性能:
我们建议经常执行脱机评估来保持监督。 此任务可帮助你监视趋势并确保有效性。 例如,如果奖励性能下降,则你可以决定暂时将个性化体验创建服务置于学徒模式。
脱机评估中显示的个性化体验创建服务性能估算:限制
我们将个性化体验创建服务的“性能”定义为它在使用过程中获得的奖励总数。 脱机评估中显示的个性化体验创建服务性能估算值是计算出来的,而不是测量出来的。 了解这些估算的限制非常重要:
- 这些估算基于过去的数据,因此将来的性能可能会随着环境和用户的变化而变化。
- 基线性能的估算值是按照概率计算出来的。 因此,基线平均奖励的置信区间非常重要。 随着更多事件的发生,估算值更精确。 如果在每个排名调用中使用较少数量的操作,则性能估算值的置信度可能会增加,因为个性化体验创建服务为每个事件选择其中任何一个操作(包括基线操作)的概率更高。
- 个性化体验创建服务会持续准实时地训练模型以改进为每个事件选择的操作,因此,它将影响获得的奖励总数。 模型性能会随时间变化,具体取决于最近提供的既往训练数据。
- 探索和操作选择是个性化体验创建服务模型引导的随机过程。 用于这些随机过程的随机数从事件 ID 植入。为确保探索-利用和其他随机过程的可重现性,请使用相同的事件 ID。
- 探索可能会限制联机性能。 降低探索设置将限制采集多少信息来掌握不断变化的趋势和使用模式,因此平衡方式取决于每个用例。 某些用例最好从较高的探索设置开始,并在一段时间后降低设置(例如,从 30% 开始,逐渐降低至 10%)。
检查可能意外偏向于个性化体验创建服务的现有模型
应用程序可将现有建议、客户分段和倾向模型输出用作个性化体验创建服务的输入。 个性化体验创建服务会学着忽略对奖励没有贡献的特征。 审查并评估任何倾向模型,以确定它们是否擅长预测奖励以及是否包含可能产生有害副作用的强烈倾向。 例如,查找可能基于有害刻板印象的建议。 考虑使用 FairLearn 等工具来简化该过程。
在项目生命周期内主动进行评估
考虑为团队成员、用户和业务所有者创建相关方法,用于报告与负责任使用相关的疑虑;同时考虑制定一个过程来确定解决方法的优先级。 考虑将负责任使用相关的任务视为应用程序生命周期中的其他交叉任务,例如与用户体验、安全性或 DevOps 相关的任务。 不应事后考虑与负责任使用相关的任务及其要求。 在整个应用程序生命周期中,都应讨论并实施负责任使用准则。