使用 Azure Monitor 为已启用 Azure Arc 的服务器提供智能且可缩放的警报

已完成

Tailwind Manufacturing 有兴趣建立一个警报系统,以响应来自其已启用 Azure Arc 的服务器的操作和连接信号。 在本单元中,将了解 Azure Monitor 如何通过规则支持智能且可缩放的警报。 然后,逐步了解如何为已启用 Azure Arc 的服务器创建 Azure Monitor 警报规则。

Azure Monitor 警报和警报规则概述

在使用 Azure Monitor 中的监视数据发现基础结构或应用程序方面的问题时,警报会主动通知你。 有了警报,你就可以在系统的用户注意到问题之前确定和解决这些问题。 Azure Monitor 警报的核心组件包括警报规则、操作组和监视条件。

警报规则独立于警报,也独立于警报触发时采取的操作。 警报规则捕获警报的目标和条件。 警报的关键属性包括:

  • 目标资源 - 定义适用于警报的范围和信号。 目标可以是任何 Azure 资源。 已启用 Azure Arc 的服务器可能会是 Azure Monitor 警报的目标。

  • 信号 - 包括指标、活动日志、Application Insights 和目标资源发出的日志。 例如,已启用 Azure Arc 的服务器发出的检测信号,或该服务器的 CPU 利用率阈值。

  • 条件 - 指定应用于目标资源的信号和逻辑的组合。 例如,如果 CPU 利用率阈值超过 70%。

  • 警报名称、警报说明和严重性 - 由用户配置。 严重性范围从 0 到 4,其中严重性 0 为严重,严重性 1 为错误,严重性 2 为警告,严重性 3 为信息,严重性 4 为详细

  • 操作 - 指定要通知和响应的相应操作组。 主要操作类型包括自动化 Runbook、Azure 函数、ITSM、逻辑应用、安全 Webhook 和 Webhook。

默认的“警报”页提供特定时间范围内创建的警报的摘要。 还可以管理警报的状态以指定它在解决过程中所处的阶段。 当满足警报规则中指定的所有条件时,将创建或触发警报,并且其状态为“新建”。 可以在确认警报和关闭警报时更改状态。 所有状态更改都存储在警报历史记录中。

你可能希望以编程方式查询针对订阅生成的警报。 通过 Azure Resource Graph,可以以编程方式管理警报实例。 此外,可以使用智能组来减少干扰并改进故障排除。 智能组是根据机器学习算法对警报进行的聚合。

Azure Monitor 的可靠警报管理和资源框架可以扩展以用于通过已启用 Azure Arc 的服务器报告混合和多云计算机。

为已启用 Azure Arc 的服务器创建警报规则

如果你有一个或多个已启用 Azure Arc 的服务器启用了 VM Insights,则可以使用以下步骤为已启用 Azure Arc 的服务器定义新的警报规则:

  1. 在浏览器中,导航到位于 https://portal.azure.com/ 的 Azure 门户。

  2. 在门户中,浏览“监视器”,然后从左侧导航列表中选择“警报”。

  3. 在“创建”部分下,选择“警报规则”。

  4. 在“按资源类型筛选”部分下,选择“服务器 - Azure Arc”。

  5. 选择已启用 Azure Arc 的目标服务器作为规则的范围。

  6. 选择信号 \LogicalDisk(_Total)% Disk Time (Azure.VM.Windows.GuestMetrics)。

    Screenshot of creating an alert rule.

  7. 输入阈值 0.5,然后选择“完成”。

    Screenshot of creating signal logic.

  8. 选择“创建新的操作组”以定义对警报的响应。

  9. 对于“基本信息”,请输入订阅、资源组和操作组名称。

  10. 对于“通知”,请选择“向 Azure 资源管理器角色发送电子邮件”,然后从下拉选项中选择“所有者”。

    Screensbot of creating an action group.

  11. 输入“通知名称”,然后为操作组选择“查看 + 创建”。

  12. 为警报规则选择“查看 + 创建”。