使用 Insights 监视单个 Azure Stack HCI 版本 23H2 群集

适用于:Azure Stack HCI 版本 23H2

本文介绍如何使用 Insights 监视单个 Azure Stack HCI 群集。 对于多个 Azure Stack HCI 群集,请参阅 使用 Insights 监视多个 Azure Stack HCI 群集

Insights 是 Azure Monitor 的一项功能,可让你快速开始监视 Azure Stack HCI 群集。 你可以查看有关群集、服务器、虚拟机和存储的关键指标、运行状况和使用情况信息。

花点时间watch有关 Azure Stack HCI 的见解的视频演练:

好处

适用于 Azure Stack HCI 的见解具有以下优势:

  • 由 Azure 管理。 Insights 由 Azure 管理,可以通过 Azure 门户访问它,因此可确保它始终保持最新状态。 无需安装数据库或特殊软件。

  • 可伸缩性。 Insights 能够同时跨多个订阅加载 400 多个群集信息集。 群集、域或物理位置没有限制。

  • 可定制性。 Insights 体验是基于 Azure Monitor 工作簿模板构建的。 因此,你可以更改视图和查询、修改或设置与特定限制相符的阈值,并将这些自定义设置保存到工作簿中。 然后,可以将工作簿中的图表固定到 Azure 仪表板。

先决条件

下面是将 Insights 用于 Azure Stack HCI 的先决条件:

  • 必须有权访问已部署和注册的 Azure Stack HCI 群集。

  • 必须启用 Azure 资源的托管标识。 有关详细信息,请参阅启用增强管理

启用 Insights

启用 Insights 可通过提供有用的运行状况指标,来帮助监视当前与 Log Analytics 工作区关联的所有 Azure Stack HCI 群集。 Insights 安装 Azure Monitor 代理,并帮助你配置数据收集规则 (DCR) 来监视 Azure Stack HCI 群集。

按照以下步骤从 Azure 门户启用见解:

  1. 在 Azure 门户中,浏览到 Azure Stack HCI 群集资源页,然后选择你的群集。 在“功能”选项卡下,选择“Insights”。

    显示“Insights”磁贴的屏幕截图。

  2. 在“Insights”页上,选择“开始”。

    显示“开始”按钮的屏幕截图。

  3. 在“Insights 配置”页上,从“数据收集规则”下拉列表中选择现有的 DCR。 DCR 指定需要收集的事件日志和性能计数器,并将其存储在 Log Analytics 工作区中。 如果 DCR 尚不存在,Insights 会创建一个默认 DCR。 仅包括为 Insights 启用的 DCR。

    显示 Insights 配置窗口的屏幕截图。

  4. (可选)还可以通过在“Insights 配置”页上选择“新建”来创建新的 DCR。

    重要

    我们强烈建议不要创建你自己的 DCR。 Insights 创建的 DCR 包括其操作所需的特殊数据流。 你可以编辑此 DCR 以收集更多数据,例如 Windows 和 Syslog 事件。 通过 AMA 安装创建的 DCR 的 DCR 名称中附加了前缀 AzureStackHCI-

    1. 在“新建数据收集规则”页上,指定订阅、DCR 名称和数据收集终结点 (DCE) 名称。 DCE 用于访问配置服务以提取 Azure Monitor 代理的关联 DCR。 有关 DCE 的详细信息,请参阅 Azure Monitor 中的数据收集终结点

      注意

      如果在代理上使用专用链接,则必须添加 DCE。 有关 AMA 网络设置的详细信息,请参阅定义 Azure Monitor 代理 网络设置

      显示数据收集规则窗口的屏幕截图。

    2. 选择“查看 + 创建”按钮。

      如果尚未为未受监视的群集创建 DCR,则会创建一个已启用性能计数器并启用 Windows 事件日志通道的 DCR。

  5. 查看最终屏幕,其中显示了 DCR 名称、事件日志数量、性能计数器和存储了数据的 Log Analytics 工作区名称的摘要。 选择“设置”。

    显示数据收集规则下拉选择器的屏幕截图。

    选择“设置”后,你会重定向到“扩展”页,在其中可以查看代理安装状态。 配置 Insights 后,AMA 会自动安装在群集的所有节点上。

  6. 转到 Azure Stack HCI 群集资源页,然后选择你的群集。 Insights 现在会在“功能”选项卡上显示为“已配置”:

    “Insights”磁贴显示为“已配置”的屏幕截图。

数据收集规则

在具有 Azure Monitor 代理的计算机上启用 Insights 时,必须指定要使用的 DCR。 有关 DCR 的详细信息,请参阅 Azure Monitor 中的数据收集规则

选项 说明
性能计数器 指定要从操作系统收集哪些数据性能计数器。 必须为所有计算机指定此选项。 这些性能计数器用于填充 Insights 工作簿中的可视化效果。 目前,Insights 工作簿使用五个性能计数器 - Memory()\Available BytesNetwork Interface()\Bytes Total/secProcessor(_Total)\% Processor TimeRDMA Activity()\RDMA Inbound Bytes/secRDMA Activity()\RDMA Outbound Bytes/sec
事件日志通道 指定要从操作系统收集哪些 Windows 事件日志。 必须为所有计算机指定此选项。 Windows 事件日志用于填充 Insights 工作簿中的可视化效果。 目前,数据是通过两个 Windows 事件日志通道收集的:- microsoft-windows-health/operationalmicrosoft-windows-sddc-management/operational
Log Analytics 工作区 用于存储数据的工作区。 仅列出具有 Insights 的工作区。

事件通道

Microsoft-windows-sddc-management/operationalMicrosoft-windows-health/operational 事件通道将添加到“Windows 事件日志”下的 Log Analytics 工作区。

显示“添加数据源”窗口的屏幕截图。

通过收集这些日志,Insights 会显示各个服务器、驱动器、卷和 VM 的运行状况。 默认情况下,将添加五个性能计数器。

性能计数器

默认情况下,将添加五个性能计数器:

显示添加的性能计数器的屏幕截图。

下表介绍了受监视的性能计数器:

性能计数器 说明
Memory(*)\Available Bytes Available Bytes 是可立即分配给进程或供系统使用的物理内存量(以字节为单位)。
Network Interface(*)\Bytes Total/sec 每个网络适配器上发送和接收字节(包括组帧字符)的速率。 Bytes Total/sec 是 Bytes Received/sec 和 Bytes Sent/sec 之和。
Processor(_Total)% Processor Time 所有进程线程使用处理器执行指令所用的运行时间的百分比。
RDMA Activity(*)\RDMA Inbound Bytes/sec 网络适配器每秒通过 RDMA 接收数据的速率。
RDMA Activity(*)\RDMA Outbound Bytes/sec 网络适配器每秒通过 RDMA 发送数据的速率。

启用 Insights 后,收集数据最多可能需要 15 分钟。 完成此过程后,可以在左侧窗格的 “见解 ”菜单中查看群集运行状况的丰富可视化效果:

显示 Insights 可视化效果的屏幕截图。

禁用 Insights

若要禁用 Insights,请执行以下步骤:

  1. 在“功能”选项卡下,选择“Insights”。

  2. 选择“禁用 Insights”。

    显示“禁用 Insights”窗口的屏幕截图。

禁用 Insights 功能时,将删除数据收集规则与群集之间的关联,并且不再收集运行状况服务和 SDDC 管理日志;但是,不会删除现有的数据。 如果要删除这些数据,请转到你的 DCR 和 Log Analytics 工作区并手动删除。

更新 Insights

“Insights”磁贴在以下情况下会显示“需要更新”消息:

  • 数据收集规则已更改。
  • 已从 Windows 事件日志中删除运行状况事件。
  • 已从 Log Analytics 工作区中删除五个性能计数器中的任何一个。

若要再次启用 Insights,请执行以下步骤:

  1. 选择“功能”下的“Insights”磁贴。

  2. 选择“更新”来再次查看可视化效果。

    显示“更新 Insights”窗口的屏幕截图。

疑难解答

本部分提供有关解决使用 Insights for Azure Stack HCI 时出现的问题的指南。

排查未填充数据的空白“工作簿”页面问题

问题。 你将看到一个空白 的“工作簿 ”页面,其中未填充任何数据,如以下屏幕截图所示:

空白“工作簿”页的屏幕截图。

可能的原因。 此问题可能有多种原因,例如最近配置 Insights 或关联的 DCR 配置不正确。

解决方案。 若要排查此问题,请按顺序执行以下步骤:

  1. 如果最近配置了见解,请等待最多一小时,以便 AMA 收集数据。
  2. 验证关联的 DCR 的配置。 确保将事件通道和性能计数器作为数据源添加到关联的 DCR,如 数据收集规则 部分中所述。
  3. 如果在执行上述步骤后问题仍然存在,但仍未看到任何数据,请联系客户支持人员以获取帮助。

有关更详细的故障排除指南,请参阅 Azure Monitor 代理故障排除指南

Insights 可视化效果

下表提供了启用 Insights 后所有资源的详细信息。

健康产业

提供群集上的运行状况故障。

指标 说明 计价单位 示例
故障 有关运行状况故障的简短说明。 单击链接时,会打开侧面板,其中包含详细信息。 无单位 PoolCapacityThresholdExceeded
错误资源类型 遇到错误的资源类型。 无单位 StoragePool
错误资源 ID 遇到运行状况错误的资源的唯一 ID。 唯一 ID {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830}
严重性 故障的严重性可能是“警告”或“严重”。 无单位 警告
初始故障时间 上次更新服务器时的时间戳。 datetime 2022/4/9 中午 12:15:42

服务器

指标 说明 计价单位 示例
服务器 群集中的服务器的名称。 无单位 VM-1
上次更新时间 上次更新服务器的日期和时间。 datetime 2022/4/9 中午 12:15:42
状态 群集中的服务器资源的运行状况。 它可以是“正常”、“警告”、“严重”和“其他” 正常
CPU 使用率 进程使用 CPU 的时间百分比。 百分比 56%
内存使用率 服务器进程的内存使用率等于计数器 Process\Private Bytes 加上内存映射数据的大小。 百分比 16%
逻辑处理器 逻辑处理器的数目。 计数 2
CPU CPU 的数目。 计数 2
运行时间 机器(尤其是计算机)处于运行状态的时间。 Timespan 2.609 小时
站点 服务器所属站点的名称。 站点名称 SiteA 的节点上运行
域名 服务器所属的本地域。 无单位 Contoso.local

虚拟机

提供群集中所有虚拟机的状态。 VM 可能处于以下状态之一:“正在运行”、“已停止”、“已失败”或“其他”(“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”)。

指标 说明 计价单位 示例
服务器 服务器的名称。 无单位 Sample-VM-1
上次更新时间 此项提供上次更新服务器的日期和时间 datetime 2022/4/9 中午 12:24:02
VM 总数 服务器节点中的 VM 数。 计数 0 个正在运行,共 0 个
正在运行 服务器节点中正在运行的 VM 数。 计数 2
已停止 服务器节点中已停止的 VM 数。 计数 3
Failed 服务器节点中已发生故障的 VM 数。 计数 2
其他 如果 VM 处于以下状态之一:“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”,则将该状态视为“其他”。 计数 2

存储

下表提供了群集中卷和驱动器的运行状况:

指标 说明 计价单位 示例
卷的名称 无单位 ClusterPerformanceHistory
上次更新时间 上次更新存储的日期和时间。 datetime 2022/4/14 下午 2:58:55
状态 卷的状态。 “正常”、“警告”、“严重”和“其他”。 正常
总容量 报告期内设备的总容量(以字节为单位)。 字节 2.5 GB
可用容量 报告期间可用容量(以字节为单位)。 字节 20B
Iops 每秒输入/输出操作数。 每秒 45 个/秒
吞吐量 应用程序网关每秒提供的字节数。 每秒字节数 5 字节/秒
延迟 完成 I/O 请求所需的时间。 Second 0.0016 秒
复原 要从故障中恢复的容量。 最大化数据可用性。 无单位 三向镜像
重复数据删除 减少需要存储在磁盘上的数据的物理字节数的过程。 可用或不可用 Yes/No
文件系统 文件系统的类型。 无单位 ReFS

Azure Monitor 定价

启用监视可视化效果时,会从以下位置收集日志:

  • 运行状况管理 (Microsoft-windows-health/operational)。
  • SDDC 管理(Microsoft-Windows-SDDC-Management/Operational;事件 ID:3000、3001、3002、3003、3004)。

将根据引入数据量及 Log Analytics 工作区的数据保留设置向你收费。

Azure Monitor 采用即用即付定价,每个计费帐户每月首个 5 GB 免费。 由于定价可能因多种因素而异,例如所使用的 Azure 区域,请访问 Azure Monitor 定价计算器以获取最新的定价计算。

后续步骤