Insights を使用して複数の Azure Stack HCI クラスターを監視する

適用対象: Azure Stack HCI バージョン 22H2

この記事では、Insights を使用して複数の Azure Stack HCI クラスターを監視する方法について説明します。 1 つの Azure Stack HCI クラスターについては、「 Insights を使用して Azure Stack HCI を監視する」を参照してください。

重要

2023 年 11 月より前に Azure Stack HCI クラスターを登録し、Insights を構成した場合、Arc for Servers、VM Insights、Defender for Cloud、Sentinel など、 Azure Monitor エージェント (AMA) を使用する特定の機能では、ログとイベント データが正しく収集されない可能性があります。 トラブルシューティングのガイダンスについては、「 2023 年 11 月より前に登録されたクラスターのトラブルシューティング 」セクションを参照してください。

各クラスターで Insights を有効にする利点、前提条件、および方法については、「 利点」、「 前提条件」、「 分析情報を有効にする」を参照してください。

概要紹介のビデオを見る:

正常性、パフォーマンス、および使用状況の分析情報を表示する

Insights は、そのデータを Log Analytics ワークスペースに格納します。これにより、強力な集計とフィルター処理を提供し、時間の経過と同時にデータの傾向を分析できます。 Insights の直接コストは発生しません。 ユーザーは、取り込むデータ量と Log Analytics ワークスペースのデータ保有の設定に基づいて課金されます。

Azure Monitor > Insights ハブ > Azure Stack HCI から Insights にアクセスできます。 ビューを切り替えるための次のタブが表示されます: [監視への追加]、[クラスターの正常性]、[サーバー]、[仮想マシン]、[ストレージ]

結果のフィルター処理

視覚化は、サブスクリプション間でフィルター処理できます。 次のドロップダウン メニューに基づいて、結果をフィルター処理できます。

  • 時間範囲: このフィルターを使用すると、傾向ビューの範囲を選択できます。 既定値は [過去 24 時間] です。
  • サブスクリプション: Azure Stack HCI クラスターを登録したサブスクリプションが表示されます。 このフィルターでは、複数のサブスクリプションを選択できます。
  • HCI クラスター: 選択した時間範囲でログと監視機能が有効になっている、登録済みの Azure Stack HCI クラスターを一覧表示します。 このフィルターから複数のクラスターを選択できます。
  • リソース グループ: このフィルターを使用すると、リソース グループ内のすべてのクラスターを選択することができます。

監視への追加

この機能は、ユーザーによって監視されていないクラスターの詳細を提供します。 クラスターの監視を開始するには、選択してそのクラスターを開き、[Capabilities > Insights](機能と分析情報) を選択します。 クラスターが表示されない場合は、それが Azure に最近接続されたかどうかを確認してください。

監視するクラスターを選択するスクリーンショット。

説明
クラスター クラスターの名前です。 27cls1
Azure 接続の状態 HCI リソースの状態。 接続中
OS のバージョン サーバー上のオペレーティング システムのビルド。 10.0.20348.10131

既定では、グリッド ビューに最初の 250 行が表示されます。 値を設定するには、次の図に示すようにグリッド行を編集します。

グリッド値を設定する画面を示すスクリーンショット。

詳細を Excel にエクスポートするには、次の図に示すように [Export にエクスポート] を選択します。

Excel にエクスポートするためのリンクを示すスクリーンショット。

Excel で、次のように Azure 接続の状態が指定されます。

  • 0: 未登録
  • 1: 切断
  • 2: Not Recently (最近接続されていない)
  • 3: 接続

クラスターの正常性

このビューには、クラスターの正常性の概要が表示されます。

クラスターの正常性の概要情報を示すスクリーンショット。

説明
クラスター クラスターの名前です。 27cls1
最終更新日 サーバーの最終更新時のタイムスタンプ 2022/4/9、午後 12:15:42
Status クラスター内のサーバー リソースの正常性を指定します。 [正常]、[警告]、[重大]、または [その他] になります。 Healthy
障害が発生しているリソース エラーの原因となったリソースの説明。 サーバー、記憶域プール、サブシステム
合計サーバー数 クラスター内のサーバーの数。 4

クラスターがないか、[その他] の状態が表示される場合は、クラスターに使用されている [Log Analytics ワークスペース] に移動し、[エージェントの構成][microsoft-windows-health/operational] ログからデータがキャプチャされていることを確認してください。 最近クラスターが Azure に接続されていることと、このブック内でクラスターがフィルターで除外されていないことも確認してください。

サーバー

このビューには、サーバーの正常性とパフォーマンス、および選択したクラスターの使用状況の概要が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのサーバー イベント ID 3000 を使用して作成されます。 各行をさらに展開して、ノードの正常性状態を確認できます。 クラスターおよびサーバー リソースとやり取りして、それぞれのリソース ページに移動できます。

サーバーの正常性を示すスクリーンショット。

仮想マシン

このビューには、選択したクラスター内のすべての VM の状態が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルの仮想マシン イベント ID 3003 を使用して作成されます。 各行をさらに展開して、クラスター内のサーバー間の VM の分散を表示できます。 クラスターおよびノード リソースとやり取りして、それぞれのリソース ページに移動できます。

仮想マシンの正常性を示すスクリーンショット。

メトリック 説明
クラスター > サーバー クラスターの名前です。 展開時に、クラスター内のサーバーが表示されます。 Sample-VM-1
最終更新日時 サーバーの最終更新時の日時スタンプ。 2022/4/9、午後 12:24:02
[Total VMs] (VM の総数) クラスター内のサーバー ノード内の VM の数。 1/2 実行中
実行中 クラスター内のサーバー ノードで実行されている VM の数。 2
停止済み クラスター内のサーバー ノードで停止されている VM の数。 3
失敗 クラスター内のサーバー ノードで失敗している VM の数。 2
その他 VM の状態が、不明、開始中、スナップショット中、保存中、停止中、一時停止中、再開中、一時停止、中断のいずれかである場合、"その他" と見なされます。 2

Storage

このビューには、監視対象のクラスター全体のボリュームの正常性、使用状況、パフォーマンスが表示されます。 個々のボリュームの状態を表示するには、クラスターを展開します。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのボリューム イベント ID 3002 を使用して作成されます。 上部のタイルは、ストレージの正常性の概要を示します。

ストレージ ボリュームの正常性を示すスクリーンショット。

メトリック 説明
クラスター > ボリューム クラスターの名前です。 展開時に、クラスター内のボリュームが表示されます。 AltaylCluster1 > ClusterPerformanceHistory
最終更新日 ストレージの最終更新時の日時スタンプ。 2022/4/14、午後 2:58:55
ボリューム正常性 ボリュームの状態。 [正常]、[警告]、[重大]、または [その他] になります。 Healthy
サイズ レポート期間中のデバイスの合計容量 (バイト単位)。 25B
使用 レポート期間中の使用可能な容量のパーセンテージ。 23.54%
IOPS 1 秒あたりの入出力処理。 45/s
傾向 IOPS の傾向。
スループット Application Gateway で処理された 1 秒あたりのバイト数。 5B/s
傾向 (B/s) スループットの傾向。
平均待機時間 待機時間とは、I/O 要求の完了にかかる平均時間です。 334 μs

分析情報をカスタマイズする

ユーザー エクスペリエンスは Azure Monitor ブック テンプレートをベースに作成されているため、ユーザーは視覚化とクエリを編集し、カスタマイズされたブックとして保存できます。

[Azure Monitor] > [Insights hub](分析情報ハブ) > [Azure Stack HCI] から視覚化を使用している場合は、[カスタマイズ] > [編集] > [名前を付けて保存] を選択して、変更したバージョンのコピーをカスタム ブックに保存します。

ブックはリソース グループ内に保存されます。 リソース グループにアクセスできるすべてのユーザーは、カスタマイズされたブックにアクセスできます。

ほとんどのクエリは、Kusto クエリ言語 (KQL) を使用して記述されます。 一部のクエリは、Resource Graph クエリを使用して記述されます。 詳細については、次の記事を参照してください。

サポート

Insights のサポート チケットを開くには、Azure Stack HCI の [ 監視 & 管理] のサービスの種類 Insights を使用します。

イベント ログ チャネル

分析情報と監視ビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルに基づいています。 監視が有効になっている場合、このチャネルのデータは Log Analytics ワークスペースに保存されます。

ダンプ キャッシュ間隔の表示と変更

キャッシュをダンプする既定の間隔は、3,600 秒 (1 時間) に設定されます。

キャッシュ ダンプ間隔の値を表示するには、次の PowerShell コマンドレットを使用します。

Get-ClusterResource "sddc management" | Get-ClusterParameter

キャッシュ ダンプの頻度を変更するには、次のコマンドレットを使用します。 これが 0 に設定されると、イベントの発行が停止されます。

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

ログ チャネル内の Windows イベント

このチャネルには、5 つのイベントが含まれます。 各イベントには、クラスター名と Azure Resource Manager ID が EventData として含まれています。

イベント ID イベントの種類
3000 サーバー
3001 ドライブ
3002 ボリューム
3003 仮想マシン
3004 クラスター

サーバー イベント 3000 RenderedDescription 列の値

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

ほとんどの変数は、この JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解しづらい変数をいくつか示します。

変数 説明
m_servers サーバー ノードの配列。
m_statusCategory サーバーの正常性状態。
m_status サーバーの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

意味
0 Healthy
1 警告
2 異常
255 その他

m_status 変数の値は次のとおりです。

意味
0 上へ
1 [下へ]
2 メンテナンス中
3 参加
4 標準
5 Isolated
6 検疫済み
7 ドレイン中
8 ドレインが完了しました
9 ドレインに失敗しました
0xffff 不明

ドライブ イベント 3001 RenderedDescription 列の値

ドライブ イベント 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

ボリューム イベント 3002 RenderedDescription 列の値

ボリューム イベント 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

ほとんどの変数は、上記の JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解しづらい変数をいくつか示します。

変数 説明
VolumeList ボリュームの配列。
m_StatusCategory ボリュームの正常性状態。
m_Status ボリュームの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。

m_statusCategory 変数の値は次のとおりです。

意味
0 Healthy
1 警告
2 異常
255 その他

m_status 変数の値は次のとおりです。

意味
0 Unknown
1 その他
2 [OK]
3 修復が必要
4 負荷
5 予測される障害
6 エラー
7 回復不可能なエラー
8 開始中
9 停止中
10 停止済み
11 サービス中
12 連絡先なし
13 通信の切断
14 Aborted
15 休止中
16 サポートするエンティティでエラー
17 完了
18 電源モード
19 再配置中
0xD002 [下へ]
0xD003 再同期が必要

仮想マシン イベント 3003 RenderedDescription 列の値

仮想マシン イベント 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

クラスター イベント 3004 RenderedDescription 列の値

クラスター イベント 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

収集されるデータの詳細については、「ヘルス サービスの障害」を参照してください。

次のステップ

関連情報については、以下をご覧ください。