为 Azure Stack HCI 设置日志警报

适用于:Azure Stack HCI 版本 23H2 和 22H2

本文介绍如何为 Azure Stack HCI 系统设置日志警报:使用适用于 Azure Stack HCI 的见解和使用预先存在的示例日志查询,例如平均服务器 CPU、可用内存、可用卷容量等。

有关如何设置指标警报的信息,请参阅 为 Azure Stack HCI 设置指标警报

花点时间watch有关收集新日志、自定义 Insights 工作簿和使用日志创建警报的视频演练:

先决条件

在开始之前,请确保满足以下先决条件:

  • 有权访问已部署和注册的 Azure Stack HCI 群集。
  • 必须在 群集上启用见解。 启用 Insights 会将群集配置为在 Log Analytics 工作区中收集所需的日志。

使用见解设置日志警报

重要

不建议将 Insights 用于高严重性警报。 收集日志可能需要 15 分钟。

按照以下步骤使用 Insights 设置日志警报。 确保已查看并完成 先决条件

  1. 在 Azure 门户中,导航到或搜索“监视”,然后选择“Azure Stack HCI”。

  2. 选择某个选项卡以查看资源的运行状况。 例如,选择“服务器”以查看群集中服务器的运行状况。

  3. 自定义工作簿并对其进行编辑,直到出现蓝色的“日志视图”图标。 选择该图标以查看和编辑查询。

    受监视资源和资源运行状况的屏幕截图。

  4. 加载查询后,选择“+ 新建警报规则”。

    屏幕截图显示群集的“新建警报规则”以及创建新警报的方法。

  5. 在警报界面中,可以设置警报条件、操作等。 有关详细信息,请参阅日志查询结果警报操作和详细信息

    创建新警报时要定义的项的屏幕截图。

使用示例日志查询设置警报

可以使用 Azure 门户中现成的日志查询开始监视 Azure Stack HCI 系统并为其设置警报。 这些查询可帮助你检查和监视系统的运行状况。

按照以下步骤使用示例日志查询设置日志警报。 确保已查看并完成 先决条件

  1. 在Azure 门户浏览到 Azure Stack HCI 群集资源页,然后选择要使用示例日志查询监视的群集。

  2. 在群集的“概述”页上,选择“JSON 视图”。

    “JSON 视图”中用于查找 ClusteArmId 的链接的屏幕截图。

  3. 从“资源 ID”框中复制 ClusterArmId 详细信息。

    可在其中复制 ClusteArmId 信息的“资源 JSON”页的屏幕截图。

  4. 在 Azure 门户中,导航到或搜索“监视”,然后选择“日志”。

  5. 选择“+ 添加筛选器”添加“资源类型”筛选器。

  6. 选择“Azure Stack HCI”以显示 Azure Stack HCI 系统示例日志的已填充列表。

    屏幕截图显示 Azure Monitor 日志工作区以及如何访问示例查询。

  7. 选择“加载到编辑器”以打开查询工作区。

  8. 将链接到群集资源的日志的范围设置为“Log Analytics 工作区”。

  9. 将“ClusterArmId”详细信息粘贴到查询的 where ClusterArmId =~ 节中,以查看与群集相关的结果。

    Log Analytics 工作区和 Cluster Arm ID 查询的屏幕截图。

  10. 选择“运行”。

显示信息后,可以检查日志并根据结果创建警报。 有关详细信息,请参阅日志查询结果警报操作和详细信息

为多个群集设置警报

若要设置新查询或更改现有查询以适应多个群集 ClusterArmId,请将 | where ClusterArmId in~ 子句添加到查询中。 请包含你要在查询中使用的每个群集的 ClusterArmId。 例如: | where ClusterArmId in~ ('ClusterArmId1', 'ClusterArmId2', 'ClusterArmId3')

用于显示多个群集的日志的查询屏幕截图。

日志查询结果

添加日志后,应该通过对存储群集日志的工作区运行查询来确认获得了预期的结果。 如果未获得预期的结果,请更正并重新运行日志查询。

创建新的警报规则时,必须设置条件详细信息以汇总查询结果。 这些详细信息基于三个类别:度量、按维度拆分和警报逻辑。 在警报详细信息中填写以下组件:

  • 度量:用于设置警报的值。 默认情况下,它仅接受数值。 将值转换为整数,并从下拉列表中选择正确的值。
  • 聚合类型:确保可以收到警报,即使只有一个群集内存值符合指定的值。 对于多个群集上的警报,需要将聚合类型设置为最大值,而不是平均值或总数。
  • 资源 ID 列:根据其他值拆分警报度量值。 若要在群集上收到警报,请使用 clusterarmID;若要为服务器设置警报,请使用 _resourceID。 检查日志查询中的值名称是否准确。
  • 维度名称:进一步拆分警报度量。 例如,若要收到每台服务器的警报,请选择 Nodename
    • 设置警报时,下拉菜单中不一定会显示所有值。 选中“包括所有将来值”复选框,以确保在群集中的多个服务器上设置相同的警报。
  • 阈值:根据设置的值提供通知。

在此示例中,当聚合类型为“最大值”的度量值 Memoryusageint 达到阈值“15 分钟”时,你将收到警报。

要指定的日志查询详细信息的屏幕截图。

设置详细信息后,可以查看警报准确性条件。

要设置的警报条件的屏幕截图。

警报操作和详细信息

若要确定如何接收群集警报的通知,请如图所示使用“操作”选项卡。 可以创建新的操作组,或者为现有操作组设置警报规则。 可以选择通过电子邮件、事件中心等接收通知。

操作组操作选项的屏幕截图。

设置操作后,可以在“详细信息”选项卡中设置警报严重性、名称、说明和区域。 选择“查看 + 创建”以最后一次检查所有警报设置并创建警报。

警报操作详细信息的屏幕截图。

设置警报后,可以在“警报”选项卡中监视警报规则、操作组等。

监视警报的屏幕截图。

日志收集频率

默认情况下,每小时生成一次日志。 若要检查日志收集频率,请使用以下 PowerShell 命令:

get-clusterresource "sddc management" | get-clusterparameter

若要更改本地计算机上的日志生成频率,请更改 CacheDumpIntervalInSeconds 日志收集参数。

下面是日志记录频率设置为 15 分钟的示例。

get-clusterresource "sddc management" | set-clusterparameter -name "CacheDumpIntervalInSeconds" -value 900

注意

若要收集所有日志,请不要将频率设置为 15 分钟以下。

后续步骤

了解如何创建 Azure Monitor 警报规则