Azure Stack HCI 和 Windows Server 叢集上的容錯和儲存效率
適用於:Azure Stack HCI 版本 22H2 和 21H2;Windows Server 2022、Windows Server 2019
本文說明可用的復原選項,並概述每個選項的規模需求、記憶體效率,以及一般優點和取捨。
概觀
儲存空間直接存取 為您的數據提供容錯,通常稱為「復原」。 其實作與RAID類似,不同之處在於分散於伺服器,並在軟體中實作。
如同RAID,儲存空間 有幾種不同的方式可以執行這項操作,這在容錯、記憶體效率與計算複雜度之間做出不同的取捨。 這些大致分為兩類:「鏡像」和「同位」,後者有時稱為「清除編碼」。。
鏡像
鏡像會保留所有數據的多個複本,以提供容錯功能。 這最類似於RAID-1。 數據的等量和放置方式是非微不足道的(請參閱 此部落格 以深入瞭解),但絕對正確地說,任何使用鏡像儲存的數據都是以完整方式撰寫的。 每個復本都會寫入不同的實體硬體(不同伺服器中的不同磁碟驅動器),這些磁碟驅動器假設會獨立失敗。
您可以選擇兩種鏡像類型 – 「雙向」和「三向」。
雙向鏡像
雙向鏡像會寫入所有專案的兩個複本。 其儲存效率為 50% – 若要寫入 1 TB 的數據,您至少需要 2 TB 的實體記憶體容量。 同樣地,您需要至少兩個硬體「容錯網域」–搭配 儲存空間直接存取,這表示兩部伺服器。
警告
如果您有兩部以上的伺服器,建議您改用三向鏡像。
三向鏡像
三向鏡像會寫入所有專案的三個複本。 其儲存效率為 33.3%, 若要寫入 1 TB 的數據,您至少需要 3 TB 的實體記憶體容量。 同樣地,您至少需要三個硬體容錯網域 – 具有 儲存空間直接存取,這表示三部伺服器。
三向鏡像一次可以安全地容忍至少兩個硬體問題(磁碟驅動器或伺服器)。 例如,如果您在突然的另一部磁碟驅動器或伺服器失敗時重新啟動一部伺服器,所有數據都會保持安全且持續存取。
同位
同位編碼,通常稱為「清除編碼」,使用位算術提供容錯,這可能會變得 非常複雜。 這種運作方式比鏡像還不明顯,而且有許多絕佳的在線資源(例如,這個第三方 《清除編碼指南》),可協助您瞭解這一點。 已足夠表示,它可提供更佳的儲存效率,而不會影響容錯能力。
儲存空間 提供兩種同位-“單一”同位和“雙重”同位,後者採用一種更大規模稱為“地方重建代碼”的先進技術。
重要
我們建議針對大部分的效能敏感工作負載使用鏡像。 若要深入瞭解如何根據工作負載平衡效能和容量,請參閱 規劃磁碟區。
單一同位
單一同位只保留一個位同位符號,一次只針對一個失敗提供容錯。 它最類似於RAID-5。 若要使用單一同位,您至少需要三個硬體容錯網域 – 搭配 儲存空間直接存取,這表示三部伺服器。 由於三向鏡像在相同規模上提供更多的容錯,因此不建議使用單一同位。 但是,如果你堅持使用它,它就在那裡,它是完全支援的。
警告
我們不建議使用單一同位,因為它一次只能安全地容忍一個硬體故障:如果您在突然的另一部磁碟驅動器或伺服器失敗時重新啟動一部伺服器,您將會遇到停機時間。 如果您只有三部伺服器,建議您使用三向鏡像。 如果您有四個以上,請參閱下一節。
雙同位
雙重同位實作 Reed-所羅門錯誤更正程式代碼,以保留兩個位同位符號,因此提供與三向鏡像相同的容錯能力(也就是一次最多兩次失敗),但儲存效率更高。 它最類似於RAID-6。 若要使用雙重同位,您需要至少四個硬體容錯網域 – 搭配 儲存空間直接存取,這表示四部伺服器。 在該規模下,記憶體效率為 50% – 若要儲存 2 TB 的數據,您需要 4 TB 的實體記憶體容量。
雙重同位的儲存效率會增加您擁有的更多硬體容錯網域,從 50% 提高到 80%。 例如,在七部(含 儲存空間直接存取 時,這表示七部伺服器)的效率會躍升至 66.7%, 以儲存 4 TB 的數據,您只需要 6 TB 的實體儲存容量。
請參閱摘要一節,以瞭解每一個規模的雙重合作物件和本機重建碼的效率。
本機重建代碼
儲存空間 引進Microsoft研究開發的先進技術,稱為“地方重建代碼”或LRC。 大規模地,雙重同位使用 LRC 將其編碼/譯碼分割成幾個較小的群組,以減少寫入或從失敗中復原所需的額外負荷。
使用硬碟(HDD)時,群組大小為四個符號:使用固態硬碟 (SSD),群組大小為六個符號。 例如,以下是硬碟和12個硬體容錯網域的版面配置外觀 -- 有兩組四個數據符號。 其可達到 72.7% 的儲存效率。
我們建議這個深入但非常易讀的逐步解說,瞭解本機重建程序代碼如何處理各種失敗案例,以及他們為何吸引 Claus Joergensen。
鏡像加速同位
儲存空間直接存取 磁碟區可以是部分鏡像和部分同位。 先在鏡像部分寫入陸地,稍後會逐漸移至同位部分。 實際上,這會 使用鏡像來加速清除程序代碼。
若要混合三向鏡像和雙重同位,您需要至少四個容錯網域,這表示四部伺服器。
鏡像加速同位的儲存效率介於您使用所有鏡像或所有同位之間,取決於您選擇的比例。
重要
我們建議針對大部分的效能敏感工作負載使用鏡像。 若要深入瞭解如何根據工作負載平衡效能和容量,請參閱 規劃磁碟區。
摘要
本節摘要說明 儲存空間直接存取 中可用的復原類型、使用每種類型的最低規模需求、每個類型可容許的失敗數目,以及對應的記憶體效率。
復原類型
復原 | 容錯 | 記憶體效率 |
---|---|---|
雙向鏡像 | 1 | 50.0% |
三向鏡像 | 2 | 33.3% |
雙同位 | 2 | 50.0% - 80.0% |
混合 | 2 | 33.3% - 80.0% |
最小規模需求
災害復原 | 所需的容錯網域下限 |
---|---|
雙向鏡像 | 2 |
三向鏡像 | 3 |
雙同位 | 4 |
混合 | 4 |
提示
除非您使用 底座或機架容錯,否則容錯網域的數目是指伺服器數目。 只要符合 儲存空間直接存取 的最低需求,每部伺服器中的磁碟驅動器數目都不會影響您可以使用的復原類型。
混合式部署的雙重同位效率
下表顯示混合式部署的每個級別雙同位和本機重建碼的儲存效率,其中包含硬碟(HDD)和固態硬碟(SSD)。
容錯網域 | 版面配置 | 效率 |
---|---|---|
2 | – | – |
3 | – | – |
4 | RS 2+2 | 50.0% |
5 | RS 2+2 | 50.0% |
6 | RS 2+2 | 50.0% |
7 | RS 4+2 | 66.7% |
8 | RS 4+2 | 66.7% |
9 | RS 4+2 | 66.7% |
10 | RS 4+2 | 66.7% |
11 | RS 4+2 | 66.7% |
12 | LRC (8, 2, 1) | 72.7% |
13 | LRC (8, 2, 1) | 72.7% |
14 | LRC (8, 2, 1) | 72.7% |
15 | LRC (8, 2, 1) | 72.7% |
16 | LRC (8, 2, 1) | 72.7% |
全快閃部署的雙重同位效率
下表顯示針對全快閃部署,每個級別上雙同位和本機重建碼的儲存效率,其中只包含固態硬碟 (SSD)。 同位配置可以使用較大的群組大小,並在全快閃設定中達到更佳的儲存效率。
容錯網域 | 版面配置 | 效率 |
---|---|---|
2 | – | – |
3 | – | – |
4 | RS 2+2 | 50.0% |
5 | RS 2+2 | 50.0% |
6 | RS 2+2 | 50.0% |
7 | RS 4+2 | 66.7% |
8 | RS 4+2 | 66.7% |
9 | RS 6+2 | 75.0% |
10 | RS 6+2 | 75.0% |
11 | RS 6+2 | 75.0% |
12 | RS 6+2 | 75.0% |
13 | RS 6+2 | 75.0% |
14 | RS 6+2 | 75.0% |
15 | RS 6+2 | 75.0% |
16 | LRC (12, 2, 1) | 80.0% |
範例
除非您只有兩部伺服器,否則建議您使用三向鏡像和/或雙同位,因為它們提供更佳的容錯能力。 具體來說,它們可確保即使有兩個容錯網域(含 儲存空間直接存取,這表示兩部伺服器)都受到同時失敗的影響,所有數據仍保持安全且持續存取。
所有專案保持在線的範例
這六個範例顯示三向鏡像和/或雙重同位 可以 容忍的內容。
- 1. 一個磁碟驅動器遺失(包括快取磁碟驅動器)
- 2. 一部伺服器遺失
- 3. 一部伺服器和一部磁碟驅動器遺失
- 4. 不同伺服器中遺失兩個磁碟驅動器
- 5. 遺失兩個以上的磁碟驅動器,只要最多兩部伺服器受到影響
- 6. 兩部伺服器遺失
...在每個情況下,所有磁碟區都會保持在線狀態。 (請確定您的叢集會維護仲裁。)
所有項目脫機的範例
在其存留期間,儲存空間 可以容忍任意數目的失敗,因為它會在每個失敗之後還原到完整復原,因為只要有足夠的時間。 不過,在任何指定的時刻,最多兩個容錯網域都可能會受到失敗的影響。 因此,以下是三向鏡像和/或雙重同位 無法 容忍的範例。
- 7. 磁碟驅動器一次遺失三部或多部伺服器
- 8. 三部以上的伺服器一次遺失
使用方式
請參閱 建立磁碟區。
下一步
如需本文所提及主題的進一步閱讀,請參閱下列內容: