Azure Backup のメトリックを使用してバックアップの正常性を監視する (プレビュー)

[アーティクル]
06/01/2023

Azure Backup には、バックアップの正常性を監視できる、Azure Monitor の組み込みメトリックのセットが用意されています。また、メトリックが定義したしきい値を超えたときにトリガーされるアラートルールを構成することもできます。

Azure Backup では、次の主要機能が提供されています。

バックアップ項目のバックアップと復元の正常性に関連するすぐに使用できるメトリックと、それに関連する傾向を表示する機能
バックアップ項目の正常性を効率的に監視するために、これらのメトリックに対するカスタムアラートルールを記述する機能
メール、ITSM、Webhook、ロジックアプリなど、Azure Monitor によってサポートされるさまざまな通知チャネルに、発生したメトリックアラートをルーティングする機能。

Azure Monitor のメトリックについて詳しくは、こちらをご覧ください。

サポートされるシナリオ

次のワークロードの種類に対する組み込みメトリックがサポートされます。
- Azure VM、Azure VM 内の SQL データベース
- Azure VM 内の SAP HANA データベース
- Azure Files
- Azure BLOB。
HANA インスタンスのワークロードの種類に対するメトリックは、現在はサポートされていません。
各リージョンとサブスクリプション内のすべての Recovery Services コンテナーについて、メトリックを一度に表示できます。現在、さらに大きなスコープのメトリックを Azure portal で表示することは、サポートされていません。メトリックアラートルールの構成にも、同じ制限が適用されます。

サポートされている組み込みメトリック

現在、Azure Backup では次のメトリックがサポートされています。

バックアップ正常性イベント: このメトリックの値は、特定の時間内にコンテナーで発生した、バックアップジョブの正常性に関連する正常性イベントの数を表します。バックアップジョブが完了すると、Azure Backup サービスによってバックアップ正常性イベントが作成されます。ジョブの状態 (成功または失敗など) に基づいて、イベントに関連付けられるディメンションは異なります。
復元正常性イベント: このメトリックの値は、特定の時間内にコンテナーで発生した、復元ジョブの正常性に関連する正常性イベントの数を表します。復元ジョブが完了すると、Azure Backup サービスによって復元正常性イベントが作成されます。ジョブの状態 (成功または失敗など) に基づいて、イベントに関連付けられるディメンションは異なります。

Note

バックアップは継続的であり、ここではバックアップジョブの概念がないため、Azure BLOB ワークロードに対してのみ復元正常性イベントがサポートされます。

既定では、件数はコンテナーレベルで表示されます。特定のバックアップ項目についての件数とジョブの状態を表示するには、サポートされている任意のディメンションでメトリックをフィルター処理できます。

次の表に、バックアップ正常性イベントと復元正常性イベントのメトリックでサポートされるディメンションを示します。

ディメンション名	説明
Datasource ID (データソース ID)	ジョブに関連付けられたデータソースの一意の ID。 VM や Files などの Azure リソースの場合、これにはリソースの Azure Resource Manager ID (ARM ID) が含まれます。たとえば、`/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM` のように指定します。 VM 内の SQL または HANA データベースの場合、これには VM の ARM ID とデータベースの詳細が含まれます。たとえば、`/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM/providers/Microsoft.RecoveryServices/backupProtectedItem/SQLDataBase;mssqlserver;msdb` のように指定します。 SQL AG データベースバックアップの場合、このようなシナリオにはデータソース (VM) が含まれていないため、 [Datasource ID](データソース ID) フィールドは空です。 AG 内の特定のデータベースのメトリックを表示するには、 [Backup Instance ID](バックアップインスタンス ID) フィールドを使用します。
データソースの種類	ジョブに関連付けられたデータソースの種類。サポートされているデータソースの種類を次に示します。 Microsoft.Compute/virtualMachines (Azure Virtual Machines) Microsoft.Storage/storageAccounts/fileServices/shares (Azure Files) SQLDatabase (Azure VM 内の SQL) SAPHANADataBase (Azure VM 内の SAP HANA)
Backup Instance ID (バックアップインスタンス ID)	ジョブに関連付けられたバックアップインスタンスの ARM ID。たとえば、`/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM` のように指定します。
Backup Instance Name (バックアップインスタンス名)	読みやすくするためのバックアップインスタンスのフレンドリ名。 `{protectedContainerName};{backupItemFriendlyName}` のような形式です。たとえば、`testStorageAccount;testFileShare` のように指定します。
正常性状態	ジョブが完了した後のバックアップ項目の正常性を表します。次のいずれかの値になります: Healthy (正常)、Transient Unhealthy (一時的に異常)、Persistent Unhealthy (永続的に異常)、Transient Degraded (一時的に機能低下)、Persistent Degraded (永続的に機能低下)。バックアップまたは復元ジョブが成功すると、状態が "正常" の正常性イベントが表示されます。サービスエラーが原因のジョブ障害には "異常" が表示され、ユーザーエラーが原因の障害には "機能低下" が表示されます。同じバックアップ項目に対して同じエラーが繰り返し発生すると、状態が "一時的な異常または機能低下" から "永続的な異常または機能低下" に変わります。

監視シナリオ

Azure portal でメトリックを表示する

Azure portal でメトリックを表示するには、次の手順のようにします。

Azure portal で、 [バックアップセンター] に移動し、メニューの [メトリック] をクリックします。
メトリックを表示するコンテナーまたはコンテナーのグループを選びます。

現在、メトリックを表示できる最大のスコープは、特定のサブスクリプションとリージョン内のすべての Recovery Services コンテナーです。たとえば、TestSubscription1 の米国東部のすべての Recovery Services コンテナーなどです。
メトリックを選択して、"バックアップ正常性イベントまたは復元正常性イベント" を表示します。

これにより、コンテナーの正常性イベントの数を示すグラフがレンダリングされます。画面の上部にあるフィルターを使用して、時間の範囲と集計の単位を調整できます。
異なるディメンションでメトリックをフィルター処理するには、 [フィルターの追加] ボタンをクリックして、関連するディメンション値を選びます。
- たとえば、Azure VM バックアップの正常性イベント数のみを表示する場合は、フィルター Datasource Type = Microsoft.Compute/virtualMachines を追加します。
- コンテナー内の特定のデータソースまたはバックアップインスタンスの正常性イベントを表示するには、データソース ID またはバックアップインスタンス ID のフィルターを使います。
- 失敗したバックアップの正常性イベントのみを表示するには、異常または機能低下の正常性状態に対応する値を選んで、HealthStatus のフィルターを使用します。

メトリックに関するアラートと通知を構成する

メトリックに関するアラートと通知を構成するには、次の手順のようにします。

メトリックグラフの上部にある [新しいアラートルール] をクリックします。
アラートを作成するスコープを選びます。

スコープの制限は、メトリックの表示に関するセクションで説明されている制限と同じです。
アラートが生成される条件を選びます。

既定では、メトリックグラフの選択に基づいて一部のフィールドが事前に設定されています。必要に応じてパラメーターを編集できます。コンテナー内の各データソースに対して個別のアラートを生成するには、メトリックアラートルールでのディメンションの選択を使用します。いくつかのシナリオを次に示します。
- データソースごとに失敗したバックアップジョブに対してアラートを生成します。
  
  アラートルール: 過去 24 時間のバックアップ正常性イベントが > 0 の場合はアラートを生成する:
  - Dimensions["HealthStatus"]= “Persistent Unhealthy / Transient Unhealthy”
  - Dimensions["DatasourceId"]= "現在と将来のすべての値"
- その日のコンテナーでのすべてのバックアップが成功した場合にアラートを生成します。
  
  アラートルール: 過去 24 時間のバックアップ正常性イベントが < 1 の場合はアラートを生成する:
  - Dimensions["HealthStatus"]="Persistent Unhealthy / Transient Unhealthy / Persistent Degraded / Transient Degraded"
Note

アラートルール条件の一部としてより多くのディメンションを選択すると、コストが増加します (可能なディメンション値の一意の組み合わせの数に比例します)。より多くのディメンションを選択すると、生成されたアラートについて、より多くのコンテキストを得られます。
アクショングループを使ってこれらのアラートの通知を構成するには、アラートルールの一部としてアクショングループを構成するか、別のアクションルールを作成します。

メール、ITSM、Webhook、ロジックアプリ、SMS など、さまざまな通知チャネルがサポートされています。アクショングループについて詳しくは、こちらをご覧ください。
自動解決動作を構成する - メトリックアラートは、必要に応じて "ステートレス" または "ステートフル" として構成できます。
- 障害の根本原因が同じかどうかに関係なく、すべてのジョブ障害についてアラートを生成するには (ステートレス動作)、アラートルールの [アラートを自動的に解決する] オプションをオフにします。
- または、アラートをステートフルとして構成するには、同じチェックボックスをオンにします。したがって、そのスコープでメトリックアラートが生成されると、別の障害で新しいメトリックアラートが作成されることはありません。連続する 3 回の評価サイクルで、アラート生成条件が false と評価された場合、そのアラートは自動的に解決されます。条件が再び true と評価された場合は、新しいアラートが生成されます。

Azure Monitor メトリックアラートのステートフルとステートレスの動作について詳しくは、こちらをご覧ください。

アラートの管理

生成されたメトリックアラートを表示するには、次の手順のようにします。

[バックアップセンター]>[アラート] に移動します。
シグナルの種類 = メトリックおよびアラートの種類 = 構成済みでフィルター処理します。
アラートの詳細を表示し、状態を変更するには、アラートをクリックします。

Note

このアラートには、 [監視の状態] (発生/解決済み) と [アラートの状態] (新規/確認/終了) の 2 つのフィールドがあります。

[アラートの状態] : このフィールドは編集できます (次のスクリーンショットを参照)。
[監視の状態] : このフィールドは編集できません。このフィールドは、サービス自体によってアラートが解決されるシナリオでよく使用されます。たとえば、メトリックアラートの自動解決動作では、 [監視の状態] フィールドを使用してアラートが解決されます。

データソースアラートとグローバルアラート

生成されたアラートは、アラートルールの構成に基づいて、バックアップセンターの [データソースアラート] セクションまたは [グローバルアラート] セクションに表示されます。

アラートにデータソース ID ディメンションが関連付けられている場合は、 [データソースアラート] の下に生成されたアラートが表示されます。
アラートにデータソース ID ディメンションが関連付けられていない場合は、アラートを特定のデータソースに結び付ける情報がないため、生成されたアラートは [グローバルアラート] に表示されます。

データソースアラートとグローバルアラートについて詳しくは、こちらをご覧ください

Note

現時点では、BLOB 復元アラートが発生した場合に、それらのアラートが [データソースアラート] の下に表示されるのは、アラートルールの作成時に dimensions - datasourceId と datasourceType の両方を選択した場合のみです。ディメンションが選択されていない場合、アラートは [グローバルアラート] の下に表示されます。

プログラムでのメトリックへのアクセス

PowerShell、CLI、REST API などのさまざまなプログラムクライアントを使用して、メトリック機能にアクセスできます。詳しくは、Azure Monitor REST API のドキュメントをご覧ください。

アラートのシナリオの例

過去 24 時間以内に、あるコンテナーのすべてのトリガーされたバックアップが成功した場合、1 つのアラートを発生させる

アラートルール: 過去 24 時間のバックアップ正常性イベントが 1 より多い場合、アラートを生成する:

Dimensions["HealthStatus"] != "Healthy"

すべての失敗したバックアップジョブの後でアラートを発生させる

アラートルール: 過去 5 分間のバックアップ正常性イベントが 0 より多い場合、アラートを生成する:

Dimensions["HealthStatus"]!= "Healthy"
Dimensions["DatasourceId"]= "現在と将来のすべての値"

過去 24 時間に同じ項目で連続してバックアップエラーが発生した場合、アラートを発生させる

アラートルール: 過去 24 時間のバックアップ正常性イベントが 1 より多い場合、アラートを生成する:

Dimensions["HealthStatus"]!= "Healthy"
Dimensions["DatasourceId"]= "現在と将来のすべての値"

過去 24 時間に項目でバックアップジョブが実行されなかった場合、アラートを発生させる

アラートルール: 過去 24 時間のバックアップ正常性イベントが < 1 の場合はアラートを生成する:

Dimensions["DatasourceId"]= "現在と将来のすべての値"

次の方法で共有

Azure Backup のメトリックを使用してバックアップの正常性を監視する (プレビュー)

サポートされるシナリオ

サポートされている組み込みメトリック