設計可靠監視和警示策略的建議

適用於此 Azure Well-Architected Framework 可靠性檢查清單建議:

RE:10 測量併發佈解決方案的健康情況指標。 持續從工作負載之間擷取運行時間和其他可靠性數據,以及從個別元件和密鑰流程擷取。

本指南說明設計可靠監視和警示策略的建議。 實作此策略,讓您的作業小組知道環境的健全狀態,並確保您符合工作負載的已建立可靠性目標。

定義

詞彙 定義
計量 定期收集的數值。 計量會描述系統在特定時間的某些層面。
資源記錄 系統產生的數據。 它提供系統狀態的相關信息。
追蹤 提供要求通過服務和元件之路徑相關信息的數據。

主要設計策略

在您建立監視和警示策略之前,請先為您的工作負載執行下列工作,作為可靠性規劃的一部分:

建立監視和警示策略,以確保您的工作負載能夠可靠地運作。 監視和警示策略可為您的營運小組提供認知,讓他們收到工作負載狀況變更的通知,並可快速解決問題。 為重要流程和這些重要流程所構成的元件建立 健全狀況模型 ,以建立健全且可靠的監視策略。 健全狀況模型會定義狀況良好、降級和狀況不良的狀態。 設計您的操作狀態,立即攔截這些狀態中的變更。 當健全狀況狀態從狀況良好變更為降級或狀況不良時,警示機制會觸發 自動更正措施 ,並通知適當的小組。

實作下列建議,以設計符合您業務需求的監視和警示策略。

一般方針

  • 瞭解 計量記錄追蹤之間的差異。

  • 啟用所有雲端資源的 記錄 。 在部署中使用自動化和治理,以在整個環境中啟用診斷記錄。

  • 將所有診斷記錄轉送至集中式數據接收和分析平臺,例如 Log Analytics工作區。 如果您有區域數據主權需求,則必須在受限於這些需求的區域中使用本機數據接收。

取捨:儲存和查詢記錄會產生成本影響。 請注意您的記錄分析和保留如何影響您的預算,並判斷最佳的使用率平衡以符合您的需求。 如需詳細資訊,請參閱 成本優化的最佳作法

  • 如果您的工作負載受限於一或多個合規性架構,處理敏感性資訊的部分元件記錄也會受到這些架構約束。 將相關的元件記錄傳送至安全性資訊和事件管理 (SIEM) 系統,例如 Microsoft Sentinel

  • 建立 記錄保留原則 ,其中包含合規性架構對工作負載施加的長期保留需求。

  • 針對所有記錄訊息使用 結構化記錄 ,以優化查詢記錄數據。

  • 設定警示以在值通過與健全狀況模型狀態變更相互關聯的重大閾值時觸發,例如綠色到黃色或紅色。

    臨界值設定是持續改善的做法。 隨著工作負載演進,您定義的閾值可能會變更。 在某些情況下, 動態閾值 是監視策略的絕佳選項。

  • 請考慮在狀態改善時使用警示,例如紅色到黃色或紅色到綠色,讓作業小組可以追蹤這些事件以供日後參考。

  • 將環境的即時健康情況可視化。

  • 使用事件期間收集的數據,持續改善健康情況模型和監視和警示策略。

  • 納入雲端平臺監視和警示服務,包括:

  • 納入雲端提供者所提供的用途建置進階監視和分析,例如 Azure 監視器 深入解析工具

  • 實作備份和復原監視以擷取:

    • 數據復寫狀態,以確保您的工作負載可在 RPO) (目標恢復點目標內達成復原。

    • 備份和復原成功和失敗。

    • 要通知您 災害復原規劃的復原持續時間。

監視應用程式

  • 建立健康情況探查或 檢查函 式,並從應用程式外部定期執行。 請確定您從地理位置接近客戶的多個位置進行測試。

  • 在生產環境中執行應用程式時記錄數據。 您需要足夠的信息來診斷生產狀態中問題的原因。

  • 記錄服務界限上的事件。 包含流過服務界限的相互關聯識別碼。 如果交易流經多個服務,其中一個服務失敗,相互關聯標識符可協助您追蹤整個應用程式的要求,並找出交易失敗的原因。

  • 使用非同步記錄。 同步記錄作業有時會封鎖您的應用程式程式代碼,這會導致要求在寫入記錄時進行備份。 使用非同步記錄來保留應用程式記錄期間的可用性。

  • 將應用程式記錄與稽核區隔。 稽核記錄通常會針對合規性或法規需求進行維護,且必須完成。 若要避免卸除的交易,請維護與診斷記錄分開的稽核記錄。

  • 使用 遙測相互關聯 ,以確保您可以透過端對端應用程式和重要系統流程來對應交易。 此程式對於執行根本原因分析非常重要, (RCA) 失敗。 從應用程式收集平臺層級計量和記錄,例如 CPU 百分比、網路輸入、網路輸出和每秒磁碟作業,以通知健康情況模型,以及偵測和預測問題。 這種方法有助於區分暫時性和非轉移的錯誤。

  • 使用白箱監視以語意記錄和計量來檢測應用程式。 從應用程式收集應用層級計量和記錄,例如記憶體耗用量或要求延遲,以通知健康情況模型,以及偵測和預測問題。

  • 使用黑箱監視來測量平臺服務和產生的客戶體驗。 黑箱監視可在對系統內部情況不知情的情況下,測試外部可見的應用程式行為。 此方法常見於測量以客戶為中心的服務等級指標, (SLA) 、服務等級目標 (SLA) ,以及 (SLA) 的服務等級協定。

注意

如需應用程式監視的詳細資訊,請參閱 健全狀況端點監視模式

監視數據和記憶體

  • 監視記憶體容器的可用性計量。 當此計量低於 100% 時,表示寫入失敗。 當您的雲端提供者管理負載時,可能會發生暫時性的可用性下降。 追蹤可用性趨勢,以判斷工作負載是否有問題。

    在某些情況下,記憶體容器的可用性計量下降表示與記憶體容器相關聯的計算層瓶頸。

  • 有許多計量可用來監視資料庫。 在可靠性的內容中,要監視的重要計量包括:

    • 查詢持續時間

    • 逾時

    • 等候時間

    • 記憶體壓力

    • 鎖定

Azure 指導

  • Azure 監視器 是全方位的監視解決方案,可用來收集、分析及回應來自雲端和內部部署環境的監視數據。

  • Log Analytics 是 Azure 入口網站 中的工具,可用來針對 Log Analytics 工作區中的數據編輯和執行記錄查詢。

  • Application Insights 是 Azure 監視器的延伸模組。 它提供應用程式效能監視 (APM) 功能。

  • Azure 監視器深入解析 是進階分析工具,可協助監視 Azure 服務,例如虛擬機、應用程式服務和容器。 深入解析是以 Azure 監視器和 Log Analytics 為基礎所建置。

  • 適用於 SAP 解決方案的 Azure 監視器 是 Azure 原生監視產品,適用於在 Azure 上執行的 SAP 環境。

  • Azure 原則有助於強制執行組織標準及大規模評估合規性。

  • Azure 營運持續性中心 可讓您深入瞭解商務持續性資產。 當您套用為商務持續性和災害復原提供的方法 (BCDR) 時,請使用 Azure 營運持續性中心,集中管理 Azure 和混合式工作負載之間的商務持續性保護。 Azure 營運持續性中心 會透過備份或災害復原) 找出缺少適當保護 (的資源,並採取更正動作。 此工具有助於統一監視,並可讓您透過 Azure 原則 建立控管和稽核合規性,這一切都可在一個位置方便存取。

  • 如需多個工作區最佳做法,請參閱 設計Log Analytics工作區架構

範例

如需真實世界監視解決方案的範例,請參閱 Azure 上的 Web 應用程式監視Azure Kubernetes Service 叢集的基準架構

可靠性檢查清單

請參閱一組完整的建議。