分享方式:


Flash 專案 - 提升 Azure 虛擬機器可用性監視

Flash 是在內部廣為人知的專案,其名稱源自我們堅定的承諾,為客戶建立健全、可靠且快速的機制以監視虛擬機器 (VM) 健康情況。 我們的主要目標是確保客戶能透過可靠方式,來存取可操作的精確遙測、及時接收變更的警示,並定期監視大規模的資料。 我們也專注開發集中且一致的體驗,讓客戶能夠方便使用,以符合其獨特的可檢視性需求。 我們的任務是確保您可以:

  • 在 VM 可用性中斷時取用精確且可操作的資料 (例如 VM 重新開機和重新啟動、網路驅動程式更新和 30 秒主機 OS 更新導致應用程式凍結),同時也能取得準確的失敗詳細資料 (例如平台與使用者起始的動作、重新開機與凍結情形、計劃性與非計劃性作業等)。
  • 分析 VM 可用性趨勢並發出警示,以快速偵錯並提供每月報告。
  • 定期監視大規模的資料,並建置自訂儀表板,以隨時掌握所有資源的最新可用性狀態。
  • 接收自動化根本原因分析 (RCA),這可詳細說明受影響的 VM、停機原因和持續時間、後續修正,以及其他類似情形,以便進行目標式調查和事後剖析。
  • 收到 VM 可用性重大變更的即時通知,以快速觸發補救動作,並防止使用者受到影響。
  • 動態調整並自動執行平台復原原則,以符合不斷變化的工作負載敏感性和容錯移轉需求。

Flash 解決方案

為滿足客戶多樣化的監視需求,Flash 計劃多年來致力於開發解決方案。 為了協助您判斷最符合特定需求的 Flash 監視解決方案,請參閱下表:

方案 說明
Azure Resource Graph (正式發行) 針對大規模調查、集中式資源存放庫和歷程記錄查閱,大型客戶可使用 Azure Resource Graph (ARG),定期且一次性地取用所有工作負載之間的資源可用性遙測。
事件方格系統主題 (公開預覽) 為避免資源可用性有重大變更時讓使用者受到影響,Pearl Abyss、Krafton 等客戶會想在發生變更時透過事件方格的事件處理常式及時收到警示,以便迅速採取可降低風險的重要動作 (例如重新部署、重新啟動 VM)。
Azure 監視器 (公開預覽) 若要追蹤趨勢、彙總平台計量 (CPU、磁碟等),並設定精確的閾值型警示,客戶會想透過 Azure 監視器取用現成的 VM 可用性計量。
資源健康狀態 (正式發行) 若要執行即時且方便的入口網站 UI 健康情況檢查,每個資源客戶都可以快速檢視入口網站上 RHC 刀鋒視窗。 客戶也可以存取該資源健康情況檢查的 30 天歷程記錄檢視,以便快速且輕鬆地進行疑難排解。

全面 VM 可用性監視

如需監視 VM 可用性的全面方法,包括例行維護、即時移轉、服務修復和 VM 效能降低等案例,建議您同時使用排程事件 (SE) 和 Flash 健康情況事件。

排程的事件旨在提供預先警告,在維護活動前最多 15 分鐘提前通知。 此前置時間可讓您為即將進行的停機作業做出明智決策,您可以避免或準備執行此作業。 在這 15 分鐘期間,您可以根據即將進行的維護作業整備程度,彈性選擇要認可這些事件或延遲動作。

另一方面,Flash 健康情況事件著重於即時追蹤進行中和已結束的可用性中斷情形 (包括 VM 效能降低)。 這項功能可讓您有效監視及管理停機作業、支援自動化風險降低程序、調查和事後剖析。

若要展開您的可檢視性旅程,您可以探索 Azure 產品套件,其中包含高品質 VM 可用性資料。 這些產品包括資源健康情況活動記錄Azure 資源圖表Azure 監視器計量Azure 事件方格系統主題

下一步

若要深入了解提供的解決方案,請參閱相應的解決方案文章:

如需如何監視 Azure 虛擬機器的一般概觀,請參閱監視 Azure 虛擬機器監視 Azure 虛擬機器的參考資料