你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

试验(预览版)

试验是系统性测试假设或更改以提高用户体验或软件功能的过程。 此定义也适用于大多数科学领域,包括科技,其中所有试验都有四个常见步骤:

  • 制定一个假设来记录此试验的目的,
  • 概述执行试验的方法,包括设置、度量的内容和方法,
  • 观察上一步中定义的指标所度量的结果,
  • 就假设是否成立得出结论

查看此视频,观看应用程序配置中试验的快速演示,其中重点介绍了用于提升业务指标的用户体验优化用例。

Azure 应用程序配置中的试验(预览版)

在 Azure 应用程序配置中,试验功能让开发人员可以轻松测试功能的不同变体,并监视功能级别的影响。 配置后,用户可以分析新功能、比较功能的不同变体,并及时评估新产品更改的相关指标。 此功能为开发团队提供可衡量的见解,促进更快、更安全的产品部署。 Microsoft 与 Split Software 合作,在 Azure 应用程序配置中提供试验功能。 Split 试验工作区(预览版)是一种 Azure 本机 ISV 资源,用于 Microsoft 与 Split Software 之间的集成。

Azure 中用于试验的高级数据流。

Azure 中试验的数据流示意图。

若要开始试验,首先需要确定要试验的功能及其变体。 接下来是构成功能评估基础的指标。 若要开始你在 Azure 中的第一个试验,请按照本教程中所述的步骤进行操作。

  • 变体功能标志:表示功能的不同版本或配置。 在试验中,变体功能标志会与你感兴趣的指标以及为应用程序受众分配的流量进行比较。

  • 遥测:遥测是功能变体和相关指标的数据,用于评估功能。 对于 Azure 中的设置,功能标志评估/分配数据流向遥测提供程序。 Application Insights 是试验设置的遥测提供程序。 定义的指标的数据也流向同一 Application Insights 实例。

  • A/B 测试:A/B 测试(也称为拆分测试)是一种行业标准方法,用于评估技术堆栈中潜在变化的影响。

  • 抽样大小:采样大小是试验中用户样本的大小。 它是为正在试验的功能的任何变体发送的事件数。

  • 最小抽样大小:它是试验的每个功能变体所需的最小事件数,用于展示具有统计意义的结果。 样本大小越大,试验结果的统计意义就越大。

请考虑以下示例:你想要了解你的电子商务网站的客户在哪种情况下更有可能单击结帐按钮:按钮为黄色(变体 A)还是蓝色(变体 B)时。 若要设置此比较,可能需要划分功能标志的两个变体之间的流量,并使用单击次数作为指标来度量其表现。 不太可能所有功能的度量和即时评估都一样简单,这就是试验发挥作用的地方。 运行试验涉及为此过程设置时间线,比较与你感兴趣的指标相关的每个变体的表现。 术语“A/B 测试”和“试验”通常可互换使用,其中试验本质上是一种扩展的 A/B 测试,你可以在该过程中系统地测试假设。

设置试验

在开始之前,请在假设发现阶段考虑以下问题:你尝试通过运行试验来回答哪些问题? 你应针对什么运行试验? 为什么? 你从哪里开始? 根据你的业务需求,有哪些要遵循的策略? 此试验是否可帮助你立即改进你的应用程序或业务的表现?

在完整发布之前,确定你希望通过运行试验来实现的目标,你应在此阶段记录你的计划。 你要针对其进行试验的特性或功能有哪些变体? 你感兴趣的指标有哪些? 可以使用哪些用户或系统交互事件来捕获数据以推动这些指标的度量?

你为试验收集的数据有多好,你的试验就有多好。 在开始试验之前,必须确定要用作对照组的变体(基线变体)以及预期看到变化的变体(对比变体)。

从试验中得出结论

得出结论(或多个结论,如果需要)是试验周期的最后阶段。 可以检查试验结果,它展示了对比变体与控制变体相比的结果和影响。 结果还会展示它们的统计意义。 Statsig 度量值确实取决于遥测数据和样本大小。

这些结果可帮助你将学习成果和结果总结为可操作的项,你可以将它们立即实现到生产环境中。 但是,试验是一个连续的过程。 开始新的试验,不断改进产品。

使用试验的方案

版本防御

目标:确保平稳过渡,并在每个版本中保持或改进关键指标。

方法:采用试验逐步推出新功能,监视性能指标,并收集反馈以进行迭代改进。

好处:

  • 通过使用防护措施指标在推出初期发现和解决问题,尽量降低普遍问题的风险。
  • 通过根据实时数据做出明智的决策,帮助维护或改进关键性能和用户满意度指标。

测试假设

目标:验证假说和假设,以做出有关产品功能、用户行为或业务策略的明智决策。

方法:通过创建不同的功能版本或方案,使用试验测试特定假设,然后分析用户交互和性能指标,以确定结果。

好处:

  • 提供基于证据的见解,以减少不确定性并指导战略决策。
  • 通过利用真实用户数据确认或驳斥假设,实现更快的迭代和创新。
  • 通过专注于经证实可正常工作的想法来增强产品开发,最终产生更加成功且可满足用户需求的功能。

A/B 测试

目标:通过比较不同的 UI 变化并确定最有效的设计,优化业务指标。

方法:使用试验进行 A/B 测试,以测试 UI 元素、衡量用户交互并分析性能指标。

好处:

  • 通过根据经验证据实施 UI 更改,改善用户体验。
  • 提高数字产品或服务的转换率、参与度和整体有效性。

对于智能应用程序(例如基于 AI 的功能)

目标:通过快速试验加速生成式 AI (Gen AI) 的采用并优化 AI 模型和用例。

方法:使用试验快速迭代 AI 模型,测试不同的方案,并确定有效的方法。

好处:

  • 提高 AI 解决方案适应不断变化的用户需求和市场趋势的敏捷性。
  • 有助于了解用于缩放 AI 计划的最有效方法。
  • 根据实际数据和反馈提高 AI 模型的准确性和性能。

个性化和目标试验

目标:提供专门根据用户首选项和行为定制的个性化内容和体验。

方法:利用试验来测试个性化内容、衡量参与度并迭代个性化策略。

好处:

  • 通过相关的个性化体验,提高用户参与度、转换率和客户忠诚度。
  • 通过定制消息和优惠定位受众,促进收入增长和提高客户留住率。

性能优化试验

目标:通过性能优化试验,提高应用程序性能和改善用户体验。

方法:进行试验以测试性能增强功能、衡量关键指标并实施成功的优化。

好处:

  • 通过主动性能改进,增强应用程序的可伸缩性、可靠性和响应能力。
  • 通过实施高效优化,提高资源利用率和降低基础结构成本。

试验操作

  • 创建试验:可以在发出遥测的变体功能标志上创建试验。 创建试验后,也会随试验创建一个试验版本。 对功能标志的任何进一步编辑都会生成为该试验创建的新试验版本。

  • 试验存档:将试验存档后,会将其置于存档状态。 试验被存档期间,不会对试验执行任何计算。 始终可以在之后还原试验以恢复计算并返回到活动状态。

  • 恢复试验:恢复试验会将存档的试验置于活动状态,并恢复试验的计算。

  • 删除试验:删除试验会删除 Split 中的试验及其所有相关数据。 这是不可逆的操作,因此删除后无法还原。

  • 检查试验结果:检查活动试验的结果,可以查看试验中的每个变体的表现情况。

试验操作的访问要求

以下部分详细介绍了使用 Microsoft Entra ID 执行试验相关操作所需的角色。

设置试验

若要使用所需资源设置试验,包括拆分试验工作区,需要 Azure 订阅所有者角色或者同时具备订阅参与者和用户访问管理员角色。

创建或更新试验

若要创建、更新、存档或删除试验,需要对应用程序配置存储具有应用程序配置数据所有者角色。 它还需要 Enterprise 应用中的 ExperimentationDataOwner 角色,以管理对连接的 Split 试验工作区的数据访问。

读取试验结果

若要检查试验、其版本和结果,需要对应用程序配置存储具有应用程序配置数据读者角色。 它还需要 Enterprise 应用中的 ExperimentationDataReader 或 ExperimentationDataOwner 角色,以管理对连接的 Split 试验工作区的数据访问。

计费注意事项和限制

应用程序配置不专门针对试验计费。 试验是通过与 Split 试验工作区(预览版)的集成提供的。 检查 Azure 应用程序配置的 Split 试验的定价计划

Split 试验所需的最小样本大小为每个变体 30 个。 试验需要具有最小样本大小才能获取试验结果,否则结果中会显示“无数据”。

后续步骤