使用 Azure 備份計量監視備份的健康情況 (預覽版)
Azure 備份透過 Azure 監視器提供一組內建計量,讓您監視備份的健康情況, 並讓您設定在計量超過定義的閾值時,觸發的警示規則。
Azure 備份提供下列重要功能:
- 能夠檢視與備份項目的備份和還原健康情況相關的現成計量,以及相關聯的趨勢
- 能夠撰寫與這些計量相關的自訂警示規則,以有效率地監視備份項目的健康情況
- 能夠將引發的計量警示路由傳送至 Azure 監視器支援的不同通知通道,例如電子郵件、ITSM、Webhook、邏輯應用程式等。
支援的案例
支援下列工作負載類型的內建計量:
- Azure VM、Azure VM 中的 SQL 資料庫
- Azure VM 中的 SAP HANA 資料庫
- Azure 檔案
- Azure Blob。
目前不支援 HANA 執行個體工作負載類型的計量。
您可以一次檢視各區域和訂閱所有的復原服務保存庫計量。 目前不支援在 Azure 入口網站中檢視較大範圍的計量。 相同的限制也適用於設定計量警示規則。
支援的內建計量
Azure 備份目前支援下列計量:
備份健康情況事件:此計量的值代表備份作業健康情況相關的健康情況事件計數,即特定期間內保存庫所引發的事件。 備份作業完成後,Azure 備份服務會建立備份健康情況事件。 根據作業狀態 (例如,成功或失敗),事件相關的維度會有所不同。
還原健康情況事件:此計量的值代表還原作業健康情況相關的健康情況事件計數,即特定期間內保存庫所引發的事件。 還原作業完成後,Azure 備份服務會建立還原健康情況事件。 根據作業狀態 (例如,成功或失敗),事件相關的維度會有所不同。
注意
由於備份會持續進行,但這裡沒有備份作業的概念,因此我們僅支援 Azure Blob 工作負載的「還原健康情況事件」。
根據預設,計數會顯示在保存庫層級。 若要檢視特定備份項目和作業狀態的計數,您可以在任何支援的維度上篩選計量。
下表列出備份健康情況事件和還原健康情況事件計量支援的維度:
維度名稱 | 說明 |
---|---|
資料來源識別碼 | 與作業相關聯的資料來源的唯一識別碼。
如果是 SQL AG 資料庫備份,資料來源識別碼欄位即是空的,因為這類案例中沒有資料來源 (VM)。 若要檢視 AG 中特定資料庫的計量,請使用備份執行個體識別碼欄位。 |
資料來源類型 | 與作業相關聯的資料來源類型。 以下是支援的資料來源類型:
|
備份執行個體識別碼 | 與作業相關聯備份執行個體的 ARM 識別碼。 例如, /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM |
備份執行個體名稱 | 備份執行個體的易記名稱 (以方便閱讀)。 名稱格式是 {protectedContainerName};{backupItemFriendlyName} 。 例如, testStorageAccount;testFileShare |
健全狀態 | 代表作業完成後備份項目的健康情況。 健康情況會採用下列其中一個值:良好、狀況不良、持續狀況不良、暫時性降級、持續性降級。
|
監視情境
在 Azure 入口網站中檢視計量
若要檢視 Azure 入口網站中的計量,請遵循下列步驟:
移至 Azure 入口網站中的 [備份中心],然後按一下功能表的 [計量]。
選取您要檢視計量的保存庫或保存庫群組。
您目前可以檢視計量的最大範圍是:特定訂閱和區域的所有復原服務保存庫。 例如,TestSubscription1 中美國東部的所有復原服務保存庫。
選取計量即可檢視備份健康情況事件或還原健康情況事件。
此計量會以圖表的方式呈現,顯示保存庫的健康情況事件計數。 您可以使用畫面頂端的篩選器,調整時間範圍和彙總細微性。
若要根據不同維度篩選計量,請按一下 [新增篩選條件] 按鈕,然後選取相關的維度值。
- 例如,如果您只要查看 Azure VM 備份的健康情況事件計數,請新增篩選條件
Datasource Type = Microsoft.Compute/virtualMachines
。 - 若要檢視保存庫中特定資料來源或備份執行個體的健康情況事件,請使用資料來源識別碼/備份執行個體識別碼篩選。
- 若只要檢視失敗的備份健康情況事件,請選取對應狀況不良或降級健康情況狀態的值,即可使用 HealthStatus 上的篩選器。
- 例如,如果您只要查看 Azure VM 備份的健康情況事件計數,請新增篩選條件
針對您的計量設定警示和通知
若要設定計量的警示和通知,請遵循下列步驟:
在計量圖表的頂端,按一下 [新增警示規則]。
選取您要建立警示的範圍。
範圍限制與檢視計量一節中所述的限制相同。選取引發警示的條件。
根據預設,部分欄位會按照計量圖表的選取項目預先填入。 您可以視需要編輯參數。 若要在保存庫中的各資料來源產生個別警示,請使用計量警示規則中的維度選取項目。 以下是幾個案例:針對每個資料來源的失敗備份作業引發警示:
警示規則:如果過去 24 小時下列的備份健康情況事件為> 0 即引發警示:
- Dimensions["HealthStatus"]= [持續性狀況不良/暫時性狀況不良]
- Dimensions["DatasourceId"]= [所有的目前值和失敗值]
如果當日保存庫中所有的備份都成功,即引發警示:
警示規則:如果過去 24 小時的備份健康情況事件為 < 1 即引發警示:
- Dimensions["HealthStatus"]=[持續性狀況不良/暫時性狀況不良/持續性降級/暫時性降級]
注意
如果您在警示規則條件中選取較多維度,成本會增加 (與維度值可能的唯一組合數目成正比)。 選取較多維度讓您可以在引發警示後取得更多的內容。
若要使用動作群組設定這些警示的通知,請將動作群組設為警示規則的一部分,或建立個別的動作規則。
我們支援各類通知通道,例如電子郵件、ITSM、webhook、邏輯應用程式、簡訊。 深入了解動作群組。
設定自動解析行為 - 您可以視需要將計量警示設為「無狀態」或「具狀態」。
- 若要在每次作業失敗後產生警示,無論失敗是否基於相同的原因 (無狀態行為),請在警示規則中取消選取 [自動解析警示] 選項。
- 或者,選取相同的核取方塊,將警示設為具狀態。 這樣一來,當範圍中的計量警示引發後,系統不會在另一個失敗時又建立新的計量警示。 如果警示產生條件在連續三個評估週期後評估為 false,系統便會自動解析警示。 如果條件再次評估為 true,便會產生新的警示。
管理警示
若要檢視引發的計量警示,請遵循下列步驟:
注意
警示有兩個欄位 - 監視條件 (已引發/已解析) 和警示狀態 (新增/認可/已關閉)。
- 警示狀態:您可以編輯此欄位 (如下方螢幕擷取畫面所示)。
- 監視條件:您無法編輯此欄位。 此欄位多用於服務會自行解析警示的案例。 例如,計量警示中的自動解析行為使用監視條件欄位解析警示。
資料來源和全域警示
根據警示規則設定,引發的警示會顯示在 [資料來源警示] 區段下,或 備份中心的 [全域警示] 區段下:
- 如果警示有相關的資料來源識別碼維度,引發的警示會顯示在 [資料來源警示] 下。
- 如果警示沒有相關的資料來源識別碼維度,引發的警示會顯示在 [全域警示] 下,因為沒有資訊可將警示與特定的資料來源繫結。
注意
目前而言,若為 blob 還原警示,則只有在建立警示規則的情況下,同時選取 datasourceId 和 datasourceType 維度,才會在資料來源警示下顯示警示。 如果未選取任何維度,警示會出現在全域警示底下。
以程式設計方式存取計量
您可以使用不同的程式設計用戶端 (例如 PowerShell、CLI 或 REST API) 存取計量功能。 如需詳細資料,請參閱 Azure 監視器 REST API 文件。
範例警示案例
如果保存庫的所有已觸發備份在過去 24 小時內成功,則會引發單一警示
警示規則:如果過去 24 小時的備份健康情況事件為 < 即引發警示:
Dimensions["HealthStatus"] != "Healthy"
在每次失敗的備份作業之後引發警示
警示規則:如果過去 5 分鐘的備份健康情況事件為 > 即引發警示:
- Dimensions["HealthStatus"]!= "Healthy"
- Dimensions["DatasourceId"]= "所有的目前值和失敗值"
在過去 24 小時內針對相同項目連續備份失敗時引發警示
警示規則:如果過去 24 小時的備份健康情況事件為 > 即引發警示:
- Dimensions["HealthStatus"]!= "Healthy"
- Dimensions["DatasourceId"]= "所有的目前值和失敗值"
如果未在過去 24 小時內執行項目的備份作業,則引發警示
警示規則:如果過去 24 小時的備份健康情況事件為 < 1 即引發警示:
Dimensions["DatasourceId"]= "所有的目前值和失敗值"