你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure VMware 解决方案工作负荷的监视注意事项

本文讨论Azure VMware 解决方案工作负荷的监视设计领域。 此领域侧重于可观测性最佳做法。 本指南适用于运营团队。 Microsoft、VMware 和第三方提供了可用于监视基础结构和应用程序的各种工具。 本文列出了这些选项。

每个选项都提供具有不同程度的许可成本、集成选项、监视范围和支持的监视解决方案。 在使用工具之前,请仔细查看适用的条款和条件。

收集基础结构数据

影响:卓越运营

监视工作负载涉及从Azure VMware 解决方案基础结构和各种 VMware 解决方案组件收集数据。 Azure VMware 解决方案与 VMware 软件定义的数据中心 (SDDC) 集成,该数据中心运行多个 VMware 解决方案本机组件,例如 VMware Aria。 可以使用此工具套件(包括 VMware Aria Operations)来管理基础结构的各个方面。  

另一个可供你使用的工具是Azure VMware 解决方案的 VMware vSphere 运行状况状态。 此工具有助于确保在Azure VMware 解决方案环境中持续执行主动问题检测和修正。 具体而言,此工具会发现 VMware vSphere 基础结构中的错误配置,并检测性能瓶颈。 它还提供有关资源利用率和整体环境运行状况的见解。

VMware Aria Operations for Networks 可帮助你实现全面的网络可见性、简化故障排除过程并优化网络性能。

建议
  • 配置 VMware vSphere 运行状况状态以获取Azure VMware 解决方案私有云运行状况的高级视图。
  • 使用 VMware Aria Suite 等第三方工具增强Azure VMware 解决方案私有云网络基础结构的可见性和分析。
  • 使用 Azure 本机监视工具,例如:
    • Azure Monitor。
    • 用于操作监视的 VMware Aria 操作。
    • 用于合规性监视的Azure Policy及其关联的仪表板。
    • Microsoft Defender for Cloud 和 Microsoft Sentinel,用于安全监视。

管理日志和存档

影响:卓越运营

若要从 VMware 解决方案组件获取运行状况数据,需要访问 VMware syslog 服务收集的日志。 解决方案组件的示例包括 VMware ESXi、VMware vSAN、VMware NSX-T Data Center 和 VMware vCenter Server。 这些组件的日志可通过Azure VMware 解决方案基础结构获取。 Log Analytics 代理或扩展将虚拟机 (VM) 级别的来宾日志发送到 Log Analytics。 在 Azure VMware 解决方案 内,可以将Azure VMware 解决方案日志发送到 Azure 本机存储 Blob。 若要将日志发送到存储 Blob,可以从集中式 syslog 服务器设置转发器,也可以在 Azure Monitor 中将 Blob 配置为目标。 还可以使用 Azure 本机工具(如 Azure 逻辑应用或Azure Functions)转发日志。 可以使用这些工具为来自 Azure VMware 解决方案 的传入日志创建侦听器,并将日志发送到存储 Blob。

存档日志是降低存储成本的策略。 Azure 存储 Blob 和 Log Analytics 可以传输日志,以便进行长期存档。 使用存储 Blob 是成本较低的选项。 但 Log Analytics 具有用于警报、可视化、查询和获取基于机器学习的见解的高级集成。 选择解决方案时,请考虑预算、功能用例和长期用例。

建议
  • 从 VMware syslog 服务收集日志,以从 VMware 解决方案组件(例如 VMware ESXi、VMware vSAN、VMware NSX-T Data Center 和 VMware vCenter Server)获取运行状况数据。
  • 配置用于日志记录的 VMware Aria Operations 等工具,以收集用于查询、分析和报告功能的各种日志。
  • 配置将日志发送到长期存储的保留持续时间,以减少查询时间并节省存储成本。

监视来宾操作系统

影响:卓越运营

在来宾操作系统中,可以使用磁盘使用情况、应用程序性能、系统资源利用率和用户活动的指标。 请考虑使用 Azure Arc for Azure VMware 解决方案 (预览版) 来管理 Azure 中的 VMware 基础结构资源。 有关详细信息,请参阅部署 Azure Arc for Azure VMware 解决方案

建议
  • 在 Azure Arc for servers 或 Azure Arc for Azure VMware 解决方案 (预览版) 启用私有云后,启用来宾管理并安装 Azure 扩展。
  • 安装额外的代理以收集数据,以便在Azure VMware 解决方案来宾 VM 上启用来宾管理和监视。  

实现安全监视

影响:安全性、卓越运营

安全监视对于检测和响应异常活动至关重要。 在Azure VMware 解决方案私有云中运行的工作负载需要跨网络、Azure 资源和Azure VMware 解决方案私有云本身的全面安全监视。 可以通过部署 Microsoft Sentinel 工作区来集中安全事件。 通过使用此集成,运营团队可以在更广泛的组织威胁形势下查看、分析和检测安全事件。

建议
  • 在用于部署Azure VMware 解决方案私有云的 Azure 订阅上启用 Defender for Cloud。 确保在 Defender for Cloud 计划中,对于服务器, 云工作负载保护 (CWP) 设置的值为 ON
  • 审核特权用户在私有云Azure VMware 解决方案执行的操作。 有关详细信息,请参阅 特权标识管理中组分配的审核活动历史记录
  • 将 Microsoft Sentinel 与 Defender for Cloud 集成。 为安全事件启用其数据收集器,并将其与 Defender for Cloud 连接。
  • 在 Azure VMware 解决方案 中使用经验证的合作伙伴提供的安全监视解决方案。

监视和分析网络

影响:安全性、卓越运营

网络监视过程检查进入和传出Azure VMware 解决方案私有云的所有流量。 在 Azure VMware 解决方案 中,网络安全在网络层和主机层运行。

建议
  • 捕获和监视Azure VMware 解决方案私有云中部署的网络防火墙日志。 此外,当应用程序扩展到 Azure 本机设备(如 Azure 防火墙 或 Azure 应用程序网关)时,监视 Azure 中部署的日志。 有关详细信息,请参阅 Azure VMware 解决方案中的防火墙集成
  • 使用Azure 防火墙工作簿或类似工具来监视与防火墙设备相关的常见指标和日志。
  • 关联来自多个安全向量(例如标识、网络和基础结构向量)的日志。

配置和简化警报

影响:卓越运营、成本优化

在Azure VMware 解决方案私有云中运行工作负载时,需要有效地监视工作负荷性能。 例如,应捕获应用程序和基础结构层的日志、指标和跟踪请求。

警报可以帮助你响应性能基线中的更改。 还可以使用警报来提供有关必要维护或配置更改的信息。 例如,当密钥过期、连接丢失或存在超出资源容量的风险时,可以接收通知。

若要使警报有效,请将其配置为在满足特定条件时通知负责团队。 此外,请考虑合并警报以减少发送的单个通知数:

  • 请考虑按主机、资源组或群集合并警报,而不是针对空间不足的每台计算机发出警报。
  • 此方法也适用于主机问题、CPU 和存储高峰。
  • 基于时间窗口的警报。 例如,如果主机在短时间内发出警报,则可以根据定义的时间阈值禁止显示警报。 例如,只能在五分钟后发送警报。
建议
  • 讨论并建立基于性能数据的基线。
  • 定义相关的警报条件,例如阈值、严重性级别或特定条件。
  • 使用 VMware vSphere 事件和警报子系统 监视 VMware vSphere 并设置触发器。
  • 在 Azure VMware 解决方案 中配置 Azure 警报以实时响应事件。
  • 确保配置警报,使 VMware vSAN 数据存储松散空间 保持在服务级别协议 (SLA) 强制要求的水平。
  • 配置资源运行状况警报以获取Azure VMware 解决方案私有云的实时运行状况。
  • (APM) 工具使用应用程序性能监视,在应用程序代码级别获取性能见解。
  • 结合使用综合事务、检测信号监视和终结点监视等监视技术。
  • 根据警报对操作的影响或受影响系统的重要性确定警报的优先级。 微调警报以仅触发有意义的事件。
  • 若要减少干扰并有效地管理警报,请使用减少发出的单个通知数的方法。
  • 为了最大程度地减少警报疲劳,请采用一种机制来仅通知关键利益干系人重大事件。
  • 使用通知通道(如短信、电子邮件、推送通知)和协作平台(如 Microsoft Teams)来确保有效传递警报。

管理成本

影响:成本优化、卓越运营

成本监视是指跟踪与私有云Azure VMware 解决方案关联的成本的能力。

建议
  • 使用 VMware vSphere 事件和警报子系统监视 VMware vSphere 并设置触发器。
  • 配置基于 log Analytics 查询Azure VMware 解决方案的 Azure 警报。 这些警报可帮助运营团队实时响应预期和意外事件。

使用故障排除和调试工具

影响:成本优化、卓越运营

若要有效地调试和排查应用程序问题,需要日志、指标和相关信息。 此信息包括事件活动,以便你可以识别、分析和建立事件之间的连接。

建议
  • 将系统配置为将日志从 Azure VMware 解决方案 syslog 服务转发到 Log Analytics。 转发所有相关日志、指标和诊断信息。
  • 在Azure VMware 解决方案私有云中运行的来宾 VM 上配置由 Azure Arc 启用的服务器代理。

使用仪表板

影响:卓越运营

应用程序仪表板可帮助你可视化和监视应用程序的性能、运行状况和其他指标:

  • 仪表板中的监视报表有助于快速执行根本原因分析和故障排除。 运营团队可以使用这些仪表板在单个窗格中查看构成Azure VMware 解决方案的所有关键资源。
  • 通过仪表板指标,可以深入了解代码和基础结构更改如何影响应用程序行为。
  • 视觉对象可帮助客户支持团队了解更改、性能和可用性问题对应用程序的影响。
  • 绩效指标有利于高管领导和业务利益干系人。 这些工具为使应用程序的性能与业务目标保持一致的决策提供依据。 例如,管理人员可以通过查看服务可用性、事件解决时间和平均响应时间等指标来监视对客户的承诺。 这些指标有助于确保组织根据其 SLA 提供服务。

除了提供见解外,仪表板还可以提高透明度并鼓励协作,例如,当你向适当的利益干系人授予对应用程序仪表板的访问权限时。 此行为可培养对应用程序性能的共享理解。 这种做法还使组织能够做出明智的决策。 因此,利益干系人可以专注于推动业务向前发展的关键举措。

建议
  • 使用 Application Insights 或 Grafana 生成应用程序仪表板。 将仪表板连接到存储Azure VMware 解决方案环境中的指标的相关数据源。
  • 创建 Azure 工作簿作为常用运行的查询、指标和交互式报表的中央存储库。
  • 确保数据源符合安全性和合规性要求。
  • 定义访问控制和权限,例如用户身份验证和基于角色的访问控制。 确保每个利益干系人具有基于其角色的适当访问权限。
  • 定期进行访问评审,检查用户访问权限是最新的,并与当前角色和职责保持一致。

后续步骤

了解了 Azure VMware 解决方案 中的可观测性最佳做法后,请探索可用于进一步保护 SDDC 中的工作负载的机制、工具和外围。

使用评估工具评估设计选择。