在事件发生后

已完成

Azure 工程团队对影响客户的服务事件进行内部回顾,以从所发生的事件中吸取教训,最终降低事件发生的可能性,或至少降低事件的影响。 这些内部调查的见解会以事后评审 (PIR) 的形式提供给受影响的客户与合作伙伴。

对于我们影响最大的服务事件(尤其是影响多项服务和多个区域的事件),我们还将邀请受影响的客户加入 Azure 事件回顾 直播 - 以听取工程主管总结所发生的事件和所了解到的情况,因此客户和合作伙伴可以就有关事件的任何问题获取来自我们的主题专家的解答。

最后,如果由于一个或多个服务事件,我们未能履行或遵守我们的“服务级别协议 (SLA)”,受影响客户可能会有资格申请将每月服务费的一部分转换为额度。

事后评审 (PIR)

对于影响客户的每个 Azure 服务事件,我们都会提供一份“缓解声明”,其中将汇总所发生的事件,涉及的服务和区域,以及影响开始时间和最终缓解时间。

  • 对于已充分理解其触发因素和参与因素的影响较小的小规模服务问题,此缓解声明是最终摘要。 (例如,当问题仅影响单个区域中单个服务的一部分且影响持续时间相对较短时。)

  • 对于虽已缓解但仍需进行更多调查才能完全了解的服务问题,将在发布缓解声明后进行完成内部调查后的“事后评审 (PIR)”,一般在缓解后的 14 天内完成。 PIR 包括 Microsoft 因发生该事件而获得的任何经验或改进,以及有关客户与合作伙伴如何降低类似事件影响的相关复原能力建议。

  • 对于我们最大规模且影响最大的服务问题,发布缓解声明后,将在缓解后的 72 小时内进行“初步事后评审 (PIR)”,以汇总到目前为止已从仍在进行的调查中了解到的情况。 (例如,当问题影响多个服务、或多个区域,或影响持续时间延长时。)内部回顾完成后,一般在缓解后的 14 天内,将会发布“最终事件评审 (PIR)”,以提供其他详细信息或经验。

所有事后评审 (PIR) 将通过 Azure 服务运行状况发送到受影响的订阅,放置在“运行状况历史记录”边栏选项卡中。 这些操作还会触发任何客户配置的服务运行状况警报(如果警报条件包括“服务问题”事件类型),并将使用设置为“RCA”的“Stage”属性来表示。 对于符合我们的公开披露标准(“方案 1”事件,如公开文档中所述)的事件,也可在“Azure 状态历史记录”页上获取最新的事后评审。

注意

我们正处于从“根本原因分析 (RCA)”到“事后评审 (PIR)”的过渡状态,因此你可能会暂时在 Azure 门户和“服务运行状况警报”中看到这两个术语互换使用。

Azure 事件回顾(客户直播活动)

对于我们最大规模且影响最大的服务事件(尤其是符合我们的公开披露标准,如公开文档中所述的“方案 1”事件),我们将邀请受影响客户参与 Azure 事件回顾直播活动。

利用这些网络广播式论坛,受事件影响的客户与合作伙伴能够观看与相关服务团队的工程主管的讨论 - 总结所发生的事件、我们吸取的经验教训,以及将要采取的措施(或已在开展的行动),以降低发生“类似事件”的可能性,或至少降低其影响。

除了观看与工程主管的讨论外,客户及合作伙伴还有机会通过 Azure 事件回顾直播就有关事件的任何问题获得主题专家的解答 - 通过由相关工程团队代表组成的审核式问答 (Q&A) 侧面板。

要确保受邀参加 Azure 事件回顾(如果服务受到符合条件的上文所述“方案 1”事件影响),请确保已配置 Azure 服务运行状况警报。 Azure 事件回顾直播邀请会分发到“服务运行状况”,并通过“服务运行状况”警报分发,就像事后评审 (PIR) 一样。

在每个实时流之后,我们会将会话的录制内容发布到此 YouTube 播放列表,并在链接到它的“状态历史记录”页面上更新 PIR(如果相关)。

服务级别协议 (SLA) 和服务额度过程

服务级别协议 (SLA) 说明了 Microsoft 对 Microsoft 联机服务在运行时间和连接性方面的承诺。 SLA 的当前和存档版本可供下载,它们涵盖了 Azure 以及 Dynamics 365、Office 365 和 Intune。 如果我们未实现和维护此 SLA 中所述每项服务的服务级别(出于任何原因,包括因为一个或多个服务事件),则客户可能有资格获得等于一部分每月服务费的额度。

为便于 Microsoft 考虑 SLA 额度请求声明,必须在发生声明主题事件的计费月结束后两个月内向客户支持提交声明。 要提交声明,请登录到 Azure 门户,创建新的支持请求,选择问题类型“计费”,选择问题类型“退款请求”,然后提供尽可能多的详细信息 - 包括 Azure 服务运行状况中的事件跟踪 ID,以及有关你认为受到事件影响的服务和资源的信息。

我们的计费支持团队将验证哪些资源、服务和订阅受到了影响,然后计算并应用任何相关的 SLA 额度。 我们将在接下来的一个月以及收到声明后 45 天内尽商业上合理的努力来处理申请。 如果确定应向你提供服务额度,我们会将服务额度应用于适用的月度服务费。

根据 SLA 协议,服务额度是针对任何服务的性能或可用性问题的唯一和专享补救措施。 免费提供的预览和在线服务或服务层级不包括在内,或不符合提出 SLA 声明或获取额度的条件。 最后,请注意,任何情况下,在特定服务或服务资源的任何计费月份中授予的服务额度不会超出该服务或服务资源的每月服务费(如适用)。

1.

判断正误。 我们提供了事后评审 (PIR),用于汇总所发生的事件、受影响的服务及区域,以及影响开始时间和最终缓解时间。 我们还将尽可能包括由于事件而吸取的任何经验教训或改进措施,以及/或降低类似事件影响的复原建议。

2.

在哪里可以查找有关影响我的事件的事后评审 (PIR)?

3.

判断正误。 我未配置任何服务运行状况警报,但每当 Azure 发布有关影响到我的事件的事后评审 (PIR) 时,我仍会收到通知。

4.

如何确定 Azure 何时托管 Azure 事件回顾?