設計可靠監視和警示策略的建議

發行項
09/01/2024

適用於此 Azure 架構完善的架構可靠性檢查清單建議：

RE：10	測量併發佈解決方案的健康情況指標。持續擷取整個工作負載的運行時間和其他可靠性數據，以及從個別元件和重要流程擷取。

本指南說明設計可靠監視和警示策略的建議。實作此策略，讓您的作業小組隨時掌握環境的健康情況狀態，並確保您符合已建立的工作負載可靠性目標。

定義

詞彙	定義
計量	定期收集的數值。計量會描述系統在特定時間的某些層面。
資源記錄	系統產生的數據。它提供系統狀態的相關信息。
追蹤	提供要求通過服務和元件之路徑相關信息的數據。

關鍵設計策略

在您建立監視和警示策略之前，請先為您的工作負載執行下列工作，作為可靠性規劃的一部分：

識別關鍵和非關鍵流程。
針對您的流程執行失敗模式分析（FMA）。
識別可靠性目標。
實作備援、調整、自我保留和自我修復，以設計可靠性。
設計強固的測試策略。
為工作負載及其元件的健康情況建立模型。

建立監視和警示策略，以確保您的工作負載能夠可靠地運作。監視和警示策略可為您的作業小組提供認知，讓他們收到工作負載狀況變更的通知，並可快速解決問題。為重要流程和這些重要流程所構成的元件建立健全狀況模型，以建立健全且可靠的監視策略。健康情況模型會定義狀況良好、降級和狀況不良的狀態。設計您的作業狀態，以立即攔截這些狀態中的變更。當健康狀態從狀況良好變更為降級或狀況不良時，警示機制會觸發自動更正措施，並通知適當的小組。

實作下列建議，以設計符合您業務需求的監視和警示策略。

實作整體監視策略

瞭解計量、記錄和追蹤之間的差異。
啟用所有雲端資源的記錄功能。在您的部署中使用自動化和控管，在整個環境中啟用診斷記錄。
將所有診斷記錄轉送至集中式數據接收和分析平臺，例如 Log Analytics工作區。如果您有區域數據主權需求，則必須在受限於這些需求的區域中使用本機數據接收。

取捨：儲存和查詢記錄的成本影響。請注意您的記錄分析和保留如何影響您的預算，並判斷最佳的使用率平衡以符合您的需求。如需詳細資訊，請參閱成本優化的最佳作法。

如果您的工作負載受限於一或多個合規性架構，處理敏感性資訊的一些元件記錄也會受限於這些架構。將相關的元件記錄傳送至安全性資訊和事件管理（SIEM）系統，例如 Microsoft Sentinel。
建立記錄保留原則，其中包含合規性架構對工作負載施加的長期保留需求。
針對所有記錄訊息使用結構化記錄，以優化查詢記錄數據。
當值通過與健康情況模型狀態變更相互關聯的重大閾值時，設定警示以觸發警示，例如綠色為黃色或紅色。

臨界值設定是持續改善的做法。隨著工作負載的發展，您定義的閾值可能會變更。在某些情況下，動態閾值是監視策略的絕佳選項。
請考慮在狀態改善時使用警示，例如紅色到黃色或紅色到綠色，讓作業小組可以追蹤這些事件以供日後參考。
將環境的即時健康情況可視化。
使用事件期間收集的數據，持續改善健康情況模型和監視和警示策略。
納入雲端平臺監視和警示服務，包括：
- 平臺層級健康情況，例如 Azure 服務健康情況。
- 資源層級的健康情況，例如 Azure 資源健康狀態。
納入雲端提供者所提供的專用進階監視和分析，例如 Azure 監視器深入解析工具。
實作備份和復原監視以擷取：
- 數據復寫狀態，以確保您的工作負載可在目標恢復點目標（RPO）內實現復原。
- 成功和失敗的備份和復原。
- 通知災害復原規劃的復原持續時間。

監視應用程式

建立健康情況探查或檢查函式，並從應用程式外部定期執行。請確定您從地理位置接近客戶的多個位置進行測試。
當應用程式在生產環境中執行時記錄數據。您需要足夠的信息來診斷生產狀態中問題的原因。
記錄服務界限的事件。包含跨服務界限流動的相互關聯標識碼。如果交易流經多個服務且其中一項失敗，相互關聯標識符可協助您追蹤整個應用程式的要求，並找出交易失敗的原因。
使用異步記錄。同步記錄作業有時會封鎖您的應用程式程式代碼，這會導致要求在寫入記錄時進行備份。使用異步記錄在應用程式記錄期間保留可用性。
將應用程式記錄與稽核分開。稽核記錄通常會針對合規性或法規需求進行維護，而且必須完成。若要避免卸除的交易，請維護與診斷記錄不同的稽核記錄。
使用遙測相互關聯，以確保您可以透過端對端應用程式和重要系統流程來對應交易。此程式對於執行失敗的根本原因分析（RCA）至關重要。從應用程式收集平臺層級的計量和記錄，例如CPU百分比、網路進出、網路輸出和磁碟作業，以通知健康情況模型並偵測和預測問題。這種方法有助於區分暫時性和非轉移性錯誤。
使用白箱監視以語意記錄和計量來檢測應用程式。從應用程式收集應用層級計量和記錄，例如記憶體耗用量或要求延遲，以通知健康情況模型，以及偵測和預測問題。
使用黑箱監視來測量平臺服務和產生的客戶體驗。黑箱監視會測試外部可見的應用程式行為，而不需要瞭解系統內部。這種方法很常見於測量以客戶為中心的服務等級指標（SLA）、服務等級目標（SLO）和服務等級協定（SLA）。

注意

如需應用程式監視的詳細資訊，請參閱健全狀況端點監視模式。

監視數據和記憶體

監視記憶體容器的可用性計量。當此計量低於 100% 時，表示寫入失敗。雲端提供者管理負載時，可能會發生暫時性的可用性下降。追蹤可用性趨勢，以判斷工作負載是否有問題。

在某些情況下，記憶體容器的可用性計量下降表示與記憶體容器相關聯的計算層發生瓶頸。
監視資料庫有許多計量。在可靠性的內容中，要監視的重要計量包括：
- 查詢持續時間
- 逾時
- 等候時間
- 記憶體壓力
- 鎖定

Azure 便利化

Azure 監視器是一個全面的監視解決方案，可用來收集、分析及回應來自雲端和內部部署環境的監視數據。
Log Analytics 是 Azure 入口網站中的工具，可用來編輯和執行 Log Analytics 工作區中的數據記錄查詢。
Application Insights 是 Azure 監視器的延伸模組。它提供應用程式效能監視（APM）功能。
Azure 監視器深入解析是進階分析工具，可協助監視 Azure 服務，例如虛擬機、應用程式服務和容器。深入解析建置在 Azure 監視器和 Log Analytics 之上。
Azure Monitor for SAP Solutions 是 Azure 原生監視產品，適用於在 Azure 上執行的 SAP 環境。
Azure 原則有助於強制執行組織標準並大規模評估合規性。
Azure 商務持續性中心可讓您深入瞭解商務持續性資產。當您套用適用於商務持續性和災害復原的方法時，請使用 Azure 商務持續性中心，集中管理 Azure 和混合式工作負載之間的商務持續性保護。 Azure 商務持續性中心會找出缺少適當保護的資源（透過備份或災害復原），並採取更正動作。此工具有助於統一監視，並可讓您透過 Azure 原則建立治理和稽核合規性，這一切都可在單一位置方便存取。
如需多個工作區最佳做法，請參閱設計Log Analytics工作區架構。

範例

如需真實世界監視解決方案的範例，請參閱 Azure 上的 Web 應用程式監視和 Azure Kubernetes Service 叢集的基準架構。

社群連結

Azure 監視器基準警示（AMBA）是警示定義的中央存放庫，客戶和合作夥伴可透過採用 Azure 監視器來改善其可檢視性體驗。

可靠性檢查清單

請參閱一組完整的建議。

可靠性檢查清單

共用方式為

設計可靠監視和警示策略的建議

關鍵設計策略

實作整體監視策略

監視應用程式

監視數據和記憶體

Azure 便利化

範例

社群連結

可靠性檢查清單

意見反應

其他資源

共用方式為

設計可靠監視和警示策略的建議

關鍵設計策略

實作整體監視策略

監視應用程式

監視數據和記憶體

Azure 便利化

範例

相關連結

社群連結

可靠性檢查清單

意見反應

其他資源