了解可用性監視和容量規劃

已完成

即使是最具復原性的線上服務也需要足夠的資源,才能有效地執行。 當非預期的高需求可能會影響 Microsoft Online Services 的可用性時,在緊急狀況下尤其如此。 Microsoft 使用廣泛的可用性監視和頻繁的容量規劃,以確保即使在緊急狀況下,我們的服務仍可供客戶使用。

可用性監視

Microsoft 會實作廣泛的可用性監視,以確保我們所有的在線服務都有以最佳方式執行的必要資源。 服務小組會使用自動記錄與遙測分析來向待命工程師提醒可用性問題。 例如,服務小組會監視處理器和記憶體使用率,以找出可能危害服務健康情況的尖峰。 除了一般可用性監視之外,服務小組也會根據其服務的本質來選取適當的可用性計量。 例如,SharePoint Online (SPO) 會監視核心客戶功能,例如首頁可用性,以及上傳和下載文件的能力。

在許多情況下,我們的服務會佈建額外的資源或將流量重新路由到未受影響的服務元件,藉此自動回應威脅可用性的問題。 服務小組工程師會調查並解決任何基礎問題,藉此回應警示。 可用性問題,指出潛在的安全性事件會呈報給工作負載特定的安全性回應小組,以使用安全性事件回應程式進行解決。

容量規劃

容量規劃可協助服務小組配置支援 Microsoft Online Services 可用性所需的資源。 Microsoft ERCM 計劃的一部分需要定期容量規劃,以確保故障轉移的容量一致。 服務小組在每季審查期間,以及在需要額外容量審查的緊急情況期間審查容量資料。

容量規劃的原始數據由每個服務小組維護,並包含系統處理、記憶體和硬體容量等計量。 排定的審查會使用系統目前容量的模型,並針對緊急情況下的預計需求進行測試。 如果模型指出容量缺口,則會將系統容量的提議變更提交給服務小組領導階層進行審查。 在服務小組工程師實作之前,核准的變更會併入新模型中。

在容量規劃中,每個服務小組都會指定容量專案經理 (PM),負責收集績效資料並維護準確的系統容量模型。 除了協調每季容量審查之外,容量 PM 也會作為自動可用性監視警示的主要連絡人。 容量 PM 可確保適當的服務小組人員收到通知,以便立即回應來處理可用性問題。

深入了解