Insights を使用して複数の Azure Stack HCI クラスターを監視する

[アーティクル]
01/31/2024

適用対象: Azure Stack HCI バージョン 22H2

この記事では、Insights を使用して複数の Azure Stack HCI クラスターを監視する方法について説明します。 1 つの Azure Stack HCI クラスターについては、「 Insights を使用して Azure Stack HCI を監視する」を参照してください。

重要

2023 年 11 月より前に Azure Stack HCI クラスターを登録し、Insights を構成した場合、Arc for Servers、VM Insights、Defender for Cloud、Sentinel など、 Azure Monitor エージェント (AMA) を使用する特定の機能では、ログとイベントデータが正しく収集されない可能性があります。トラブルシューティングのガイダンスについては、「 2023 年 11 月より前に登録されたクラスターのトラブルシューティング」セクションを参照してください。

各クラスターで Insights を有効にする利点、前提条件、および方法については、「利点」、「前提条件」、「分析情報を有効にする」を参照してください。

概要紹介のビデオを見る:

正常性、パフォーマンス、および使用状況の分析情報を表示する

Insights は、そのデータを Log Analytics ワークスペースに格納します。これにより、強力な集計とフィルター処理を提供し、時間の経過と同時にデータの傾向を分析できます。 Insights の直接コストは発生しません。ユーザーは、取り込むデータ量と Log Analytics ワークスペースのデータ保有の設定に基づいて課金されます。

Azure Monitor > Insights ハブ > Azure Stack HCI から Insights にアクセスできます。ビューを切り替えるための次のタブが表示されます: [監視への追加]、[クラスターの正常性]、[サーバー]、[仮想マシン]、[ストレージ]。

結果のフィルター処理

視覚化は、サブスクリプション間でフィルター処理できます。次のドロップダウンメニューに基づいて、結果をフィルター処理できます。

時間範囲: このフィルターを使用すると、傾向ビューの範囲を選択できます。既定値は [過去 24 時間] です。
サブスクリプション: Azure Stack HCI クラスターを登録したサブスクリプションが表示されます。このフィルターでは、複数のサブスクリプションを選択できます。
HCI クラスター: 選択した時間範囲でログと監視機能が有効になっている、登録済みの Azure Stack HCI クラスターを一覧表示します。このフィルターから複数のクラスターを選択できます。
リソースグループ: このフィルターを使用すると、リソースグループ内のすべてのクラスターを選択することができます。

監視への追加

この機能は、ユーザーによって監視されていないクラスターの詳細を提供します。クラスターの監視を開始するには、選択してそのクラスターを開き、[Capabilities > Insights](機能と分析情報) を選択します。クラスターが表示されない場合は、それが Azure に最近接続されたかどうかを確認してください。

列	説明	例
クラスター	クラスターの名前です。	27cls1
Azure 接続の状態	HCI リソースの状態。	接続中
OS のバージョン	サーバー上のオペレーティングシステムのビルド。	10.0.20348.10131

既定では、グリッドビューに最初の 250 行が表示されます。値を設定するには、次の図に示すようにグリッド行を編集します。

詳細を Excel にエクスポートするには、次の図に示すように [Export にエクスポート] を選択します。

Excel で、次のように Azure 接続の状態が指定されます。

0: 未登録
1: 切断
2: Not Recently (最近接続されていない)
3: 接続

クラスターの正常性

このビューには、クラスターの正常性の概要が表示されます。

列	説明	例
クラスター	クラスターの名前です。	27cls1
最終更新日	サーバーの最終更新時のタイムスタンプ	2022/4/9、午後 12:15:42
Status	クラスター内のサーバーリソースの正常性を指定します。 [正常]、[警告]、[重大]、または [その他] になります。	Healthy
障害が発生しているリソース	エラーの原因となったリソースの説明。	サーバー、記憶域プール、サブシステム
合計サーバー数	クラスター内のサーバーの数。	4

クラスターがないか、[その他] の状態が表示される場合は、クラスターに使用されている [Log Analytics ワークスペース] に移動し、[エージェントの構成] で [microsoft-windows-health/operational] ログからデータがキャプチャされていることを確認してください。最近クラスターが Azure に接続されていることと、このブック内でクラスターがフィルターで除外されていないことも確認してください。

サーバー

このビューには、サーバーの正常性とパフォーマンス、および選択したクラスターの使用状況の概要が表示されます。このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベントログチャネルのサーバーイベント ID 3000 を使用して作成されます。各行をさらに展開して、ノードの正常性状態を確認できます。クラスターおよびサーバーリソースとやり取りして、それぞれのリソースページに移動できます。

仮想マシン

このビューには、選択したクラスター内のすべての VM の状態が表示されます。このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベントログチャネルの仮想マシンイベント ID 3003 を使用して作成されます。各行をさらに展開して、クラスター内のサーバー間の VM の分散を表示できます。クラスターおよびノードリソースとやり取りして、それぞれのリソースページに移動できます。

メトリック	説明	例
クラスター > サーバー	クラスターの名前です。展開時に、クラスター内のサーバーが表示されます。	Sample-VM-1
最終更新日時	サーバーの最終更新時の日時スタンプ。	2022/4/9、午後 12:24:02
[Total VMs] (VM の総数)	クラスター内のサーバーノード内の VM の数。	1/2 実行中
実行中	クラスター内のサーバーノードで実行されている VM の数。	2
停止済み	クラスター内のサーバーノードで停止されている VM の数。	3
失敗	クラスター内のサーバーノードで失敗している VM の数。	2
その他	VM の状態が、不明、開始中、スナップショット中、保存中、停止中、一時停止中、再開中、一時停止、中断のいずれかである場合、"その他" と見なされます。	2

Storage

このビューには、監視対象のクラスター全体のボリュームの正常性、使用状況、パフォーマンスが表示されます。個々のボリュームの状態を表示するには、クラスターを展開します。このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベントログチャネルのボリュームイベント ID 3002 を使用して作成されます。上部のタイルは、ストレージの正常性の概要を示します。

メトリック	説明	例
クラスター > ボリューム	クラスターの名前です。展開時に、クラスター内のボリュームが表示されます。	AltaylCluster1 > ClusterPerformanceHistory
最終更新日	ストレージの最終更新時の日時スタンプ。	2022/4/14、午後 2:58:55
ボリューム正常性	ボリュームの状態。 [正常]、[警告]、[重大]、または [その他] になります。	Healthy
サイズ	レポート期間中のデバイスの合計容量 (バイト単位)。	25B
使用	レポート期間中の使用可能な容量のパーセンテージ。	23.54%
IOPS	1 秒あたりの入出力処理。	45/s
傾向	IOPS の傾向。
スループット	Application Gateway で処理された 1 秒あたりのバイト数。	5B/s
傾向 (B/s)	スループットの傾向。
平均待機時間	待機時間とは、I/O 要求の完了にかかる平均時間です。	334 μs

分析情報をカスタマイズする

ユーザーエクスペリエンスは Azure Monitor ブックテンプレートをベースに作成されているため、ユーザーは視覚化とクエリを編集し、カスタマイズされたブックとして保存できます。

[Azure Monitor] > [Insights hub](分析情報ハブ) > [Azure Stack HCI] から視覚化を使用している場合は、[カスタマイズ] > [編集] > [名前を付けて保存] を選択して、変更したバージョンのコピーをカスタムブックに保存します。

ブックはリソースグループ内に保存されます。リソースグループにアクセスできるすべてのユーザーは、カスタマイズされたブックにアクセスできます。

ほとんどのクエリは、Kusto クエリ言語 (KQL) を使用して記述されます。一部のクエリは、Resource Graph クエリを使用して記述されます。詳細については、次の記事を参照してください。

サポート

Insights のサポートチケットを開くには、Azure Stack HCI の [ 監視 & 管理] のサービスの種類 Insights を使用します。

イベントログチャネル

分析情報と監視ビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベントログチャネルに基づいています。監視が有効になっている場合、このチャネルのデータは Log Analytics ワークスペースに保存されます。

ダンプキャッシュ間隔の表示と変更

キャッシュをダンプする既定の間隔は、3,600 秒 (1 時間) に設定されます。

キャッシュダンプ間隔の値を表示するには、次の PowerShell コマンドレットを使用します。

Get-ClusterResource "sddc management" | Get-ClusterParameter

キャッシュダンプの頻度を変更するには、次のコマンドレットを使用します。これが 0 に設定されると、イベントの発行が停止されます。

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

ログチャネル内の Windows イベント

このチャネルには、5 つのイベントが含まれます。各イベントには、クラスター名と Azure Resource Manager ID が EventData として含まれています。

イベント ID	イベントの種類
3000	サーバー
3001	ドライブ
3002	ボリューム
3003	仮想マシン
3004	クラスター

サーバーイベント 3000 RenderedDescription 列の値

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

ほとんどの変数は、この JSON 情報でわかりやすく記述されています。ただし、次の表に、理解しづらい変数をいくつか示します。

変数	説明
m_servers	サーバーノードの配列。
m_statusCategory	サーバーの正常性状態。
m_status	サーバーの状態。これは、1 つまたは 2 つの値を含むことができる配列です。最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

値	意味
0	Healthy
1	警告
2	異常
255	その他

m_status 変数の値は次のとおりです。

値	意味
0	上へ
1	[下へ]
2	メンテナンス中
3	参加
4	標準
5	Isolated
6	検疫済み
7	ドレイン中
8	ドレインが完了しました
9	ドレインに失敗しました
0xffff	不明

ドライブイベント 3001 RenderedDescription 列の値

ドライブイベント 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

ボリュームイベント 3002 RenderedDescription 列の値

ボリュームイベント 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

ほとんどの変数は、上記の JSON 情報でわかりやすく記述されています。ただし、次の表に、理解しづらい変数をいくつか示します。

変数	説明
VolumeList	ボリュームの配列。
m_StatusCategory	ボリュームの正常性状態。
m_Status	ボリュームの状態。これは、1 つまたは 2 つの値を含むことができる配列です。最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

値	意味
0	Healthy
1	警告
2	異常
255	その他

m_status 変数の値は次のとおりです。

値	意味
0	Unknown
1	その他
2	[OK]
3	修復が必要
4	負荷
5	予測される障害
6	エラー
7	回復不可能なエラー
8	開始中
9	停止中
10	停止済み
11	サービス中
12	連絡先なし
13	通信の切断
14	Aborted
15	休止中
16	サポートするエンティティでエラー
17	完了
18	電源モード
19	再配置中
0xD002	[下へ]
0xD003	再同期が必要

仮想マシンイベント 3003 RenderedDescription 列の値

仮想マシンイベント 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

クラスターイベント 3004 RenderedDescription 列の値

クラスターイベント 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

収集されるデータの詳細については、「ヘルスサービスの障害」を参照してください。

次のステップ

関連情報については、以下をご覧ください。

Insights を使用して複数の Azure Stack HCI クラスターを監視する

正常性、パフォーマンス、および使用状況の分析情報を表示する

結果のフィルター処理

監視への追加

クラスターの正常性

サーバー

仮想マシン

Storage

分析情報をカスタマイズする

サポート

イベントログチャネル

ダンプキャッシュ間隔の表示と変更

ログチャネル内の Windows イベント

サーバーイベント 3000 RenderedDescription 列の値

ドライブイベント 3001 RenderedDescription 列の値

ボリュームイベント 3002 RenderedDescription 列の値

仮想マシンイベント 3003 RenderedDescription 列の値

クラスターイベント 3004 RenderedDescription 列の値

次のステップ

フィードバック

フィードバック

その他のリソース

Insights を使用して複数の Azure Stack HCI クラスターを監視する

正常性、パフォーマンス、および使用状況の分析情報を表示する

結果のフィルター処理

監視への追加

クラスターの正常性

サーバー

仮想マシン

Storage

分析情報をカスタマイズする

サポート

イベント ログ チャネル

ダンプ キャッシュ間隔の表示と変更

ログ チャネル内の Windows イベント

サーバー イベント 3000 RenderedDescription 列の値

ドライブ イベント 3001 RenderedDescription 列の値

ボリューム イベント 3002 RenderedDescription 列の値

仮想マシン イベント 3003 RenderedDescription 列の値

クラスター イベント 3004 RenderedDescription 列の値

次のステップ

フィードバック

フィードバック

その他のリソース

イベントログチャネル

ダンプキャッシュ間隔の表示と変更

ログチャネル内の Windows イベント

サーバーイベント 3000 RenderedDescription 列の値

ドライブイベント 3001 RenderedDescription 列の値

ボリュームイベント 3002 RenderedDescription 列の値

仮想マシンイベント 3003 RenderedDescription 列の値

クラスターイベント 3004 RenderedDescription 列の値