閱讀英文

共用方式為


Azure Stack HCI 和 Windows Server 叢集上的容錯和記憶體效率

適用於:Azure Stack HCI 版本 22H2 和 21H2;Windows Server 2022、Windows Server 2019

本文說明可用的復原選項,並概述每個選項的規模需求、記憶體效率,以及一般優點和取捨。

概述

儲存空間直接可為您的資料提供容錯能力,通常稱為「韌性」。 其實作與RAID類似,但不同的是分散式部署於伺服器上,並以軟體方式實作。

和RAID一樣,儲存空間可以採取幾種不同的方式,在容錯、儲存效率與計算複雜度之間做出不同的取捨。 這些大致分為兩類:「鏡像」和「同位」,後者有時稱為「清除編碼」。。

鏡像

鏡像會保留所有數據的多個複本,以提供容錯功能。 這最類似於RAID-1。 數據的分條與放置方式並非易事(請參閱 此部落格 以深入瞭解),但可以絕對地說,任何使用鏡像儲存的數據都會以完整的形式多次寫入。 每個副本都會寫入到不同的實體硬體(不同伺服器中的不同磁碟驅動器),這些驅動器假設會各自獨立發生故障。

您可以選擇兩種鏡像類型 – 「雙向」和「三向」。

雙向鏡像

雙重鏡像會將所有內容寫入兩個複本。 其儲存效率為 50% – 若要寫入 1 TB 的數據,您至少需要 2 TB 的實體記憶體容量。 同樣地,您需要至少兩個 硬體「容錯網域」 — 使用 Storage Spaces Direct,這表示兩部伺服器。

雙向鏡像

警告

如果您有兩台以上的伺服器,我們建議您改用三重鏡像。

三向鏡像

三重鏡像會將所有資料寫入三份副本。 其儲存效率為 33.3%, 若要寫入 1 TB 的數據,您至少需要 3 TB 的實體記憶體容量。 同樣地,您需要至少三個硬體故障域-使用直接儲存空間,這表示三部伺服器。

三向鏡像可以安全地同時容忍至少 兩個硬體問題(磁碟驅動器或伺服器)。 例如,如果您在重新啟動一部伺服器時,突然有另一部磁碟驅動器或伺服器故障,所有數據依然會保持安全並持續可存取。

三向鏡像

平等

同位編碼,通常稱為「清除編碼」,使用位算術提供容錯,這可以取得 非常複雜的。 這種運作方式不如鏡像明顯,而且有許多絕佳的線上資源(例如,這個第三方 傻瓜指南《抹除編碼》),可協助您瞭解這一點。 已足夠表示,它可提供更佳的儲存效率,而不會影響容錯能力。

儲存空間提供兩種同位檢查的類型 — “單一”同位檢查和“雙重”同位檢查,後者在更大規模中採用一種稱為“局部重建碼”的先進技術。

重要

我們建議針對大部分的效能敏感工作負載使用鏡像。 若要深入瞭解如何根據您的工作負載平衡效能和容量,請參閱 規劃磁碟區

單一奇偶校驗

單位元同位只保留一個位元同位符號,僅能容錯一次故障。 它最類似於RAID-5。 若要使用單一奇偶校驗,您需要至少三個硬體容錯網域,以儲存空間直接存取來說,這表示需要三部伺服器。 由於三向鏡像在相同規模上提供更多的容錯,因此不建議使用單一同位。 但是,如果你堅持使用它,它就在那裡,它是完全支援的。

警告

我們不建議使用單一校驗位,因為它一次只能安全地容忍一個硬體故障:如果您正在重新啟動一台伺服器,而此時另一台硬碟或伺服器突然故障,您將會遇到停機。 如果您只有三部伺服器,建議您使用三向鏡像。 如果您有四個以上,請參閱下一節。

雙重同位

雙同位實施 Reed-Solomon 糾錯編碼以保持兩個位同位符號,因此提供與三向鏡像相同的容錯能力(同時最多支援兩次故障),同時保持儲存效率。 它最類似於RAID-6。 若要使用雙重同位元,您需要至少四個硬體容錯域 – 也就是說,在儲存空間直接存取中,這表示需要四部伺服器。 在該規模下,記憶體效率為 50% – 若要儲存 2 TB 的數據,您需要 4 TB 的實體儲存容量。

雙同位

當您擁有更多的硬體故障網域時,雙重奇偶校驗的儲存效率會從 50% 提高到 80%。 例如,當有七部伺服器(使用 Storage Spaces Direct)時,效率躍升至 66.7%——要儲存 4 TB 的資料,您只需要 6 TB 的實體儲存容量。

雙同位型

請參閱 摘要 一節,以瞭解不同規模下雙重和本地重建碼的效率。

本機重建代碼

儲存空間引進了Microsoft研究院開發的先進技術,稱為「區域重建代碼」或 LRC。 大規模情況下,雙重同位配合使用 LRC 來將其編碼和解碼分割成一些較小的群組,從而減少進行寫入操作或從故障中恢復所需的額外負擔。

使用硬碟(HDD)時,群組大小為四個符號:使用固態硬碟 (SSD),群組大小為六個符號。 例如,以下是硬碟驅動器和12個硬體錯誤容許網域(即12台伺服器)的版面配置外觀:共有兩組四個數據符號。 其可達到 72.7% 的儲存效率。

local-reconstruction-codes

我們推薦這篇由 Claus Joergensen撰寫的文章,它深入淺出地介紹了 本機重建代碼如何應對各種故障情況,以及為什麼它們具有吸引力

鏡像加速同位

儲存空間直接(Storage Spaces Direct)中的磁碟區可以兼具鏡像和同位的部分。 先將資料寫入鏡像部分,然後逐漸移至同位部分。 實際上,這是 使用鏡像來加速的糾刪碼。

若要混合三向鏡像和雙重同位,您需要至少四個容錯網域,這表示四部伺服器。

鏡像加速同位的儲存效率介於純鏡像和純同位的選項之間,具體取決於您選擇的比例。

重要

我們建議針對大部分的效能敏感工作負載使用鏡像。 若要深入瞭解如何平衡效能和容量以符合您的工作負載,請參閱 規劃磁碟區

總結

本節摘要說明儲存空間直接存取中可用的復原類型、使用每種類型的最低規模需求、每個類型可容許的失敗數目,以及對應的儲存效率。

復原類型

彈性 容錯 記憶體效率
雙向鏡像 1 50.0%
三向鏡像 2 33.3%
雙重同位 2 50.0% - 80.0%
混合 2 33.3% - 80.0%

最小規模需求

彈性 所需的最小容錯網域數目
雙向鏡像 2
三向鏡像 3
雙重同位 4
混合 4

提示

除非您使用 機箱或機架容錯,否則容錯域的數目即伺服器的數目。 只要您符合 Storage Spaces Direct 的最低需求,每部伺服器中的磁碟數量都不會影響您可以使用的復原類型。

混合式部署的雙重同位效率

下表顯示混合式部署的每個級別雙同位和本機重建碼的儲存效率,其中包含硬碟(HDD)和固態硬碟(SSD)。

容錯網域 佈局 效率
2
3
4 RS 2+2 50.0%
5 RS 2+2 50.0%
6 RS 2+2 50.0%
7 RS 4+2 66.7%
8 RS 4+2 66.7%
9 RS 4+2 66.7%
10 RS 4+2 66.7%
11 RS 4+2 66.7%
12 LRC (8, 2, 1) 72.7%
13 LRC (8, 2, 1) 72.7%
14 LRC (8, 2, 1) 72.7%
15 LRC (8, 2, 1) 72.7%
16 LRC (8, 2, 1) 72.7%

全快閃陣列部署的雙重同位元效率

下表顯示在全快閃部署中,每個級別的雙重同位碼和本機重建碼的儲存效率,其中僅包含固態硬碟(SSD)。 同位陣列佈局可以使用較大的群組大小,並在全快閃設定中達到更佳的儲存效率。

錯誤網域 佈局 效率
2
3
4 RS 2+2 50.0%
5 RS 2+2 50.0%
6 RS 2+2 50.0%
7 RS 4+2 66.7%
8 RS 4+2 66.7%
9 RS 6+2 75.0%
10 RS 6+2 75.0%
11 RS 6+2 75.0%
12 RS 6+2 75.0%
13 RS 6+2 75.0%
14 RS 6+2 75.0%
15 RS 6+2 75.0%
16 LRC (12, 2, 1) 80.0%

例子

除非您只有兩部伺服器,否則建議您使用三向鏡像和/或雙同位,因為它們提供更佳的容錯能力。 具體而言,它們可確保即使兩個容錯網域——在儲存空間直接存取中,這表示有兩部伺服器——同時遭遇故障的影響,所有數據仍能保持安全且持續可用。

保持一切在線的範例

這六個範例顯示三向鏡像和/或雙同位 可以容忍哪些

  • 1. 遺失一個硬碟(包括快取硬碟)
  • 2。 一部伺服器遺失

容錯範例1和2

  • 3. 一部伺服器和一部磁碟驅動器遺失
  • 4. 兩個磁碟驅動器在不同伺服器中遺失

容錯性例子-3-和-4

  • 5. 損失兩個以上的磁碟驅動器,只要影響不超過兩部伺服器即可。
  • 6. 兩部伺服器遺失

故障容忍範例-5-and-6

...在每個情況下,所有磁碟區都會保持在線狀態。 請確保您的叢集維持法定人數。

所有事物皆離線的範例

在其存留期內,儲存空間能承受多次故障,因為在每次故障後,若給予充足時間,它都能恢復到完全復原的狀態。 不過,在任何時刻,最多會有兩個容錯網域能安全地受到故障的影響。 因此,以下是三向鏡像和/或雙重同位 無法 容忍的情況。

  • 7. 磁碟驅動器同時在三台或多台伺服器上遺失
  • 8. 三部以上的伺服器同時失去連線

容錯範例7和8

用法

請參閱 建立磁碟區

後續步驟

如需本文所提及主題的進一步閱讀,請參閱下列內容: