你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云监视中的可观测性

本文是云监视指南系列教程的一部分。

以下各节旨在通过观察并不断迭代来推动运营成熟度,以改进监视服务的方式。 通过为每个监视解决方案建立 可观测性 ,了解组织如何更快地实施一致的监视策略。

定义可观测性

虽然可观测性和监视相互补充,但有一个显著区别:

  • 监视:收集信息并通知你,它根据配置问题来监视这些条件。 你正在监视已知或可预测的故障。
  • 可观测性:通过查看输出数据来了解系统中发生的情况。 可观测性解决方案可帮助你分析此数据,以评估系统的运行状况,并找到解决 IT 基础结构中问题的方法。

可观测性首先促使监视使用者了解被视为服务的 正常 操作。 换句话说,你可以尽快寻求 完全可见性

实现初始可观测性后,可以基于该初始可见性级别来开发可操作的警报、创建有用的仪表板并评估 AIOps 解决方案。 这些见解让你熟悉基础指标和日志监视数据。

注意

这与过去使用的方法相反,团队在构建、测试和部署之前先在纸张上定义所有监视要求。

无论监视计划面向应用程序、云基础结构还是 Azure 平台,第一步是 建立可观测性

此方法还简化了计划。 在所有情况下,总可见性意味着在三个维度或方面实现并维持足够的可见性:

  1. 深入监视:收集有意义的和相关信号。
  2. 监视端到端或广度:从堆栈的最低层到应用程序。
  3. 跨运行状况模型进行监视:专注于运行状况方面,例如可用性、性能、安全性和连续性。

Three-sided cube example

可观测性不仅仅是 IT 团队的焦点。 一个基本目标是确保最终用户可以使用系统,并确保 满足服务级别目标 (SLO)。

监视解决方案和可观测性

基础结构和应用程序监视可能很复杂。 业务转型应用技术来实现并帮助塑造其策略。 云进一步影响了监视的复杂性。

这可以从以下几个方面加以说明:

  • 数字化转型转变:企业数字化转型努力转向对云技术的超开发。
  • 内置监视:监视将嵌入到 Azure 资源和资源组中,而不是在本地管理的单独工具中。
  • 广泛的监视 云原生体系结构(如 Azure Monitor)类似于安全事件和事件管理(SIEM)工具。 Azure Monitor 比传统的本地工具更灵活、日志驱动和数量级顺序更灵活。

架构师必须像操作员一样了解基础结构组件或应用程序发出的诊断信息。

将多变量、动态、时序、事件、有状态和遥测日志流组合成有价值的智能取决于以下几点:

  • 团队知识:深入了解监视目标的开发人员或系统工程师的知识和经验。
  • 故障排除体验:使用数据查找或查找问题原因的支持和故障排除体验。
  • 从历史中学习:回顾过去的事件,查找以后可以自动修正的非技术原因。
  • 文档:软件、培训或软件供应商咨询的文档、软件、培训或咨询指南。

Microsoft 及其合作伙伴为 System Center Operations Manager 提供管理包。 管理包特定于技术;例如,如果导入 SQL 管理包,Operations Manager 会自动发现并定位托管 SQL Server 的服务器并开始监视它们。 在这里, 可观测性是预定义的或多或少的。 Operations Manager 主要用于本地基础结构,这些基础结构往往 在组件和体系结构设计模式中相对于云服务进行固定

在云中,可以在可供选择的服务类型方面具有极大的 灵活性 。 监视包括服务随时间变化的方式,并且可以是动态的、全局的和可复原的。 使用 Azure Monitor,可以利用 Azure Monitor Insights 中包含的现有工作簿,提供与 Operations Manager 中的管理包类似的功能。

敏锐观察的艺术

可观测性依赖于监视的内容和方式。

在 Azure 中,有多个监视数据源,每个数据源提供了不同行为方式的不同视角。 Azure 包含许多工具,可帮助分析此数据的各个方面。

观察平台

在 Azure 中,Microsoft 通过不同的平台日志提供服务提供商的观点

随着时间推移,Azure 中的服务可能会以不同、不可预知的方式变化。 我们将此行为称为动态行为。 观察服务随时间推移的云服务经理还需要考虑以下事项:

  • 资源重定位:资源可以跨位置或地理位置迁移或移动。
  • 资源更改:添加、删除或修改资源。
  • 消耗:不同的服务和实现的消耗量各不相同。 请注意监视成本、消耗量和预计支出。

下面是一些支持平台可观测性的工具示例:

日志源 说明
服务运行状况 Microsoft 报告的服务事件和计划内维护。
Azure 资源运行状况 报告资源的当前和过去运行状况。
Azure Monitor 活动日志 报告订阅中部署的所有资源的订阅级事件。
Azure Monitor 更改分析 报告对 Azure 应用程序的更改,并减少平均修复时间(MTTR)。
Azure 资源日志 以前称为 诊断日志,资源日志报告数据平面上在 Azure 资源中执行的操作。
Microsoft Entra 报告 (AzureAD) 日志 报告登录活动的历史记录以及给定租户的 Microsoft Entra ID 中更改的审核线索。
Azure 顾问 使用 Azure 顾问根据最佳做法接收建议的解决方案,以优化 Azure 部署。
Microsoft Cloud for Sovereignty 透明度日志 报告何时访问资源以及哪些 Microsoft 工程师访问资源。 透明度日志提供有关访问客户资源的详细信息。 日志还会在没有访问权限时通知你,这很常见。

可观测性逐步发展,从最小可行的监视计划开始,目前正在努力集成工具和流程。 当你对数据(指标、日志和事务)感到满意时,你可以了解这些资源或应用程序中出现的症状的行为和迹象。 通过熟悉数据,可以在使用 Azure Monitor 和数据时建立信任。

从可观测性中获得信心

通过适当的可观测性,你获得了信心,并且能够意识到原因并找到可以帮助的答案。 了解数据越多,流程越演变,团队获得见解。

若要设置场景,可通过以下几种方法从可观测性中获得信心:

  • 提高可预测性:改进对资源和服务的监视有助于主动识别问题,使它们将来可预测和管理。

  • 早期检测异常:可观测性允许及时检测异常或偏离预期行为,从而减少潜在问题的影响。

  • 根本原因识别:详细的可观测性数据有助于识别问题的根本原因,从而加快解决速度并防止重复。

  • 提高故障排除效率:借助可观测性,团队可以通过分析相关数据和关联事件来快速诊断和排查复杂问题。

  • 提高系统可靠性:通过识别瓶颈、性能问题和潜在故障点,可观测性有助于优化系统性能并提高整体可靠性。

  • 改善客户体验:可观测性可以更好地了解系统性能如何影响最终用户,从而采取主动措施来提高客户满意度。

  • 促进协作:可观测性平台提供共享可见性和数据访问,促进不同团队(如开发人员、运营和支持)之间的合作。

  • 法规符合性:可观测性通过提供可跟踪性、审核日志并确保遵守安全和隐私标准,从而有助于满足法规要求。

  • 更快地解决问题:通过提供丰富的数据和见解,可观测性可加快诊断和解决问题的时间,最大限度地减少停机时间和服务中断。

  • 主动容量管理:可观测性数据有助于预测资源需求、识别容量差距,并主动调整资源以保持最佳性能。

  • 风险缓解:借助可观测性,可以尽早识别潜在风险,从而采取主动缓解措施并减少严重影响的可能性。

  • 持续监视和学习:可观测性允许持续监视和学习,帮助团队适应不断变化的环境、要求和用户行为。

  • 性能优化:通过分析可观测性数据,团队可以识别和优化性能瓶颈,从而提高系统效率。

  • 工作优先级:可观测性见解使团队能够根据已确定问题的关键性和影响确定任务并分配资源。

  • 对变更管理的信心:可观测性可查看更改的影响,确保新部署或更新不会带来意外问题。

  • 改进了事件响应:借助可观测性,事件响应团队可以快速收集相关信息、了解上下文并启动适当的操作。

监视计划

创建监视计划来描述目标和目标、要求和其他基本详细信息。 然后,在组织中所有相关利益干系人之间征求同意。

监视计划应说明如何开发和操作一个或多个监视解决方案。 在项目的策略和规划阶段尽早开始创建监视计划。

创建计划时,必须记住现代监视的五项规则,如云监视策略文档中所述:监视、度量响应学习改进

下面提供了监视计划的初始建议大纲,并被视为单个服务计划的主要注意事项,或者在标准化云服务功能(如 Azure 资源类型或 Microsoft 365 服务)时。

该计划的本质是定义服务提供商(谁将现场解决方案)和使用者(谁将运行或派生价值)之间的可见性线。

企业角度

全面的监视计划必须考虑业务需求以及监视时需要的内容,包括以用户为中心的焦点。 在定义计划时,记录和共享业务要求至关重要,以下 建议计划的这一部分的范围

  • 利益干系人和使用者
  • 企业价值流和流程
  • 最终用户视角和实用工具
  • 度量和报告要求
  • 已识别的风险和合规性控制框架
  • 访问和控制要求
  • 对企业的风险

服务角度

全面的监视计划必须考虑服务所有者需要监视的内容和监视计划。 在定义计划时,记录和共享其要求至关重要,以下 建议计划这一部分的范围

  • 利益干系人和使用者
  • 角色和责任
  • 服务的定义
  • 访问和控制要求
  • 体系结构注意事项?
  • 供应商和合作伙伴基础合同
  • 服务协议 (SLA、OLA)
  • 确定服务保修范围
  • 度量和报告要求
  • 风险

技术角度

计划的这一部分使用企业和服务方面的信息来表示监视解决方案。 下面 建议计划这一部分的范围

  • 用户情景和方案
  • 技术目标(例如网络)
  • 组件依赖项映射
  • 类型(例如云原生、混合、本地)
  • 观测
  • 响应式
  • 量化指标
  • 优化和调整

注意事项

概述计划,确保该计划已通知传达给所有相关使用者、利益干系人和管理层。 对于成功的监视计划,请考虑以下几点:

重要注意事项

  • 生产阶段: 监视解决方案应在服务上线时准备就绪。 规划可以在专用于帮助试验和测试假设的另一个订阅中包含测试或预生产配置。

  • 策略: 计划还可以映射回监视和 IT 策略,以跟踪对任务或业务的监视目标。

  • 目标:在计划中,请描述并分析考虑中的目标资产或服务。 如果需要,请映射要监视的所有组件,包括服务依赖项。 确定覆盖间隔并确定谁拥有服务的每个部分。

  • 解决方案:对于监视解决方案,请确定使用者、利益干系人、供应商、合作伙伴、访问和工具。 此外,监视方面、范围、响应、报告和仪表板(可用性、安全性、用户体验等)。

一般注意事项

除了关键注意事项外,还寻求更好地了解这些点如何影响组织的监视计划。

  • 最小可行产品(MVP): 让计划定义最小可行产品的成功外观。 换句话说,最初需要什么才能上线,我们可以衡量这一点的成功吗? 生存后,可以继续改进监视解决方案,以最大化价值。

  • 保护监视数据: 安全性是当今每个组织和团队的关键方面。 确保已接受教育并了解防护措施,或让专家指导你,以便不会通过公开日志中的敏感监视数据来增加监视解决方案的风险。

  • 考虑 Microsoft 365: 任何良好的计划都认为 Azure 租户使用 Microsoft 365 作为重要组件。 Microsoft 365 依赖于 Microsoft Entra ID,Azure Monitor 提供 Microsoft 365 与终结点管理的集成。

  • 可观测性获胜: 在专注于警报之前专注于总可见性,因为警报都是成本,并可以快速导致警报疲劳。

  • 活动监视: 审核、登录和活动日志现在易于服务所有者和安全切片和切切。 确保监视计划考虑活动监视,包括为任何相关利益干系人创建的见解和仪表板。

后续步骤