共用方式為


Azure Operator Nexus 的可靠性

重要

此功能目前為預覽功能。 若您同意補充的使用規定,即可取得預覽。

本文說明 Azure Operator Nexus 中的可靠性支援,並涵蓋可用性區域的區域內部復原能力。 如需更多關於 Azure 可靠性的詳細概觀,請參閱 Azure 可靠性

可用性區域支援

Azure 可用性區域是每個 Azure 區域內至少三個實體上獨立的資料中心群組。 每個區域內的資料中心都配備了獨立的電源、冷卻和網路基礎結構。 可用性區域的作用是在一個區域受影響時 (例如本機區域失敗時),讓其餘兩個區域支援區域服務、容量和高可用性。

這類失敗的範圍可從軟體和硬體故障,擴及到如地震、淹水和火災的事件。 Azure 服務的備援和邏輯隔離功能可以容錯。 如需深入了解 Azure 的可用性區域,請參閱區域和可用性區域

已啟用 Azure 可用性區域的服務是設計來提供正確的可靠性和彈性層級。 您可以透過兩種方式加以設定。 可採用區域備援 (可跨區域自動複寫) 或分區 (將執行個體釘選在特定區域)。 兩種方法可以結合使用。 如需區域與區域備援結構的詳細資訊,請參閱使用可用性分區和區域的建議

Azure Operator Nexus 預設會提供可用性區域備援部署。 Operator Nexus 元件 (例如叢集管理員和網路網狀架構控制器) 全都部署在已啟用可用性區域的 Azure Kubernetes Service (AKS) 叢集上。 儲存體帳戶服務和 KeyVault 等其他服務相依性也會設定可用性區域備援。

注意

Operator Nexus 內部部署執行個體會實作多機架設計,以在堆疊的所有層級提供實體備援。 每個機架都設計為失敗網域或 Nexus 區域。 客戶工作負載可部署到多個機架/節點,基本上提供類似的多重可用性區域體驗。

Azure 可用性區域關閉體驗

在可用性區域關閉案例中,對叢集和資源提供者的 API 呼叫會繼續運作,而不會中斷。 目前執行中的內部部署租用戶工作負載,或建立新租用戶工作負載的能力都不受影響。 此外,不會發生資料遺失,因為會確保 Operator Nexus 和其他資源類型的復原能力。

Azure 可用性區域容錯移轉支援

在可用性區域失敗的情況下,重新連線至另一個 Azure 可用性區域是自動的,而且不需要使用者互動。

Operator Nexus 執行個體部署的可用性

確保 Azure Operator Nexus 工作負載部署中的可用性是分割的責任。 如上一節所述,Operator Nexus AKS 型資源會部署可用性區域備援。 在本節中,我們會考慮內部部署工作負載可用性的最佳做法。

一般而言,可用性目標可透過本地和異地備援部署來達成。

Nexus 區域:本機工作負載備援的機制

Operator Nexus 內部部署執行個體是由多機架設計所組成,可在堆疊的所有層級提供實體備援。 每個機架都會指定為失敗網域,因此可設定為 Nexus 區域,其中這些區域可以且最好用於本地備援工作負載部署。

Nexus 執行個體:異地工作負載備援的機制

Nexus 內部部署執行個體裝載在特定 Azure 區域中。 如先前所述,使用的 Azure 服務和 Nexus 資源會部署在該 Azure 區域的多個可用性區域中。

分散各地 (也就是不在相同的操作員資料中心,甚至可能不在相同的地理區域) 並裝載於不同 Azure 區域的 Nexus 執行個體應該用來以備援方式部署工作負載,以便進行異地備援。

警告

除非異地備援 Nexus 執行個體裝載在不同的 Azure 區域,否則在兩個地理位置分散的 Nexus 執行個體上部署工作負載,不足以達到真正的異地備援。

在 Azure 區域無法使用的不太可能情況下,Azure 服務和該區域上的 Nexus 資源也會變成無法使用。 雖然這不會影響執行中的工作負載,但是會防止啟動新工作負載、分析等功能。

相同地理位置的多個 Nexus 執行個體

在某些情況下,必須在相同的地理位置部署多個 Nexus 執行個體。 工作負載異地備援顯然無法藉由在相同地理位置的 Nexus 執行個體上部署工作負載來達成。

除了可用性之外,設計可靠性的其中一項考量是復原能力,以及從失敗復原的能力。 從失敗復原,以及符合復原時間目標的能力,都需要我們限制失敗的「爆炸」或影響半徑。 在多個 Nexus 執行個體部署在相同地理位置的案例中,復原性設計要求這些 Nexus 執行個體裝載在不同的 Azure 區域。 因此,當 Azure 區域失敗時,其影響僅限於一個 Nexus 執行個體。

下一步