Azure 備份 是一項內建的 Azure 服務,能安全保護雲端及本地工作負載。 備份能在多個工作負載上擴展保護,並提供與 Azure 工作負載的原生整合,包括虛擬機(VM)、Azure VMs 中的 SAP Hana、Azure VMs 中的 SQL、Azure 檔案儲存體、Azure Blob 儲存體,Azure Data Lake Storage、Azure 管理磁碟、Azure 彈性 SAN 卷、以及 Azure Kubernetes Service (AKS). 你不需要管理自動化或基礎設施、撰寫腳本或配置儲存空間。
使用Azure時,可靠性是共同責任。 Microsoft 提供一系列功能以支援韌性與復原。 您有責任瞭解這些功能在您使用的所有服務中如何運作,並選取符合業務目標和正常運作時間目標所需的功能。
本文說明備份如何對各種潛在中斷與問題具備韌性,包括暫時性故障、可用性區域中斷及區域中斷。 同時也強調了關於備用服務水準協議(SLA)的一些重要資訊。
備註
本文說明備份服務本身如何對各種問題具備韌性,以及你如何讓它更具韌性。 它沒有說明如何用備份來保護你的虛擬機、資料或其他資產。 想了解如何使用備份,請參閱 備份概述。
可靠性的生產部署建議
為了備份您的生產工作負載,我們建議您以以下方式配置您的保險庫:
使用區域冗餘儲存(ZRS)作為備份的最低冗餘層級。 ZRS 會將您的備份複製到多個可用區域,讓您在可用區域中斷時也能恢復備份。
如果你使用地理冗餘儲存(GRS)將備份複製到配對的 Azure 區域,請啟用支援的資料來源跨區域還原(CRR)。 CRR 允許你隨時將備份還原到配對區域。
本文以下章節將提供更多關於這些配置的細節。
備註
這些儲存冗餘建議適用於備份副本被複製的地點,而非備份服務或你備份的資源。 備份保護與儲存冗餘相輔相成。 備份能防止資料遺失,冗餘則防止基礎設施故障。
關於其他備份建議清單,包括以可靠性為重點的建議,請參見 雲端備份及本地工作負載至雲端。
可靠性架構概觀
本節說明服務運作中從可靠性角度來看最為重要的部分。 本節介紹邏輯架構,包含你部署和使用的部分資源與功能。 它還討論了物理架構,其中提供了有關服務如何在幕後工作的詳細信息。
邏輯架構
備份可以備份和還原各種 資料來源。 根據你使用的資料來源,備份的配置會有所不同。 以下資料來源較為常見:
- Azure VMs
- 各種資料庫
- Blob 儲存體 帳號
- AKS 叢集
- 透過 Microsoft Azure Recovery Services(MARS)代理的本地伺服器
備份會把你備份的資料存放在 保險庫裡。 保險庫是 Azure 中的線上儲存實體,用來保存資料,例如備份副本、恢復點和備份政策。 復原服務保管庫 與 備份保管庫 是兩種類型的保管庫。 你可以根據需要保護的部位,使用其中一種或兩種。 關於每種保險庫類型所支援的資料來源清單,請參閱 常見問題,說明支援備份與還原的保險庫。
工作 代表備份或還原資料的活動。 備份工作包括排程或按需操作,將資料從來源複製到保險庫。 還原工作包括將資料從備份儲存恢復到目標位置的操作。 每個工作都有獨特的識別碼和狀態追蹤,讓你能監控進度並排除備份與還原過程中出現的問題。 你也會建立與工作相關的 備份政策 。 政策會指定像備份排程和資料保留期限等設定。
Vault 會儲存你的備份政策和設定,以及關於工作的元資料,讓你能追蹤工作並排除故障。
實體架構
Microsoft 負責管理核心的備份服務基礎設施。 此基礎設施負責服務的管理與運作,包括觸發與監控工作。
備份會儲存在保險庫中。 保險庫是構築於 Azure 儲存體 之上的系統。 保險庫會自動複製你的備份資料,而備份的耐久性與韌性取決於保險庫的儲存冗餘。
本地冗餘儲存(LRS)會將您保存庫內的資料複製到您選擇的主要區域中一個或多個 Azure 可用區域。 你無法選擇偏好的可用性區,但 Azure 可能會在不同區域移動或擴展 LRS 帳號,以改善負載平衡。 你的資料並不保證會分散在不同區域。 欲了解更多資訊,請參閱 可用性區域概覽。
ZRS 和 GRS 提供額外的保護。 本文詳細說明這些選項。
備註
部分資料來源支援 營運層 備份,將資料存放於其他地點,而非存放在保險庫中。 例如,
對瞬態故障的彈性
暫時性錯誤是元件中的短暫間歇性失敗。 它們經常出現在雲端等分散式環境中,而且是作業的一般部分。 暫時性錯誤會在短時間內自行修正。 請務必確保您的應用程式能妥善處理暫時性錯誤,通常透過重試受影響的請求來進行。
所有雲端託管應用程式在與任何雲端託管的 API、資料庫及其他元件通訊時,都應遵循 Azure 暫態故障處理指引。 如需詳細資訊,請參閱 處理暫時性錯誤的建議。
使用備份時,備份與還原工作流程都能抵抗間歇性故障。 當服務遇到暫時性網路故障或暫時性服務中斷時,會自動重試。 你不需要設定任何重試邏輯。 若遇到重複故障,請參閱 「故障排除備份保險庫管理操作」。
對可用性區域故障的抵抗力
可用性區域是Azure區域內物理上獨立的資料中心群組。 當某個區域發生故障時,服務可以切換至其他剩餘的區域。
備份則分別管理服務的可用性區域配置,以及你的資料。
服務: 備份服務在支援區域內自動具備區域韌性。 然而,這種內建的區域韌性並不適用於你備份的資料。
備份儲存冗餘: 透過設定您的復原服務保險庫或備份保險庫,選擇您想要的備份資料冗餘等級。 如果你選擇 ZRS,備份資料的副本會自動儲存在你使用的 Azure 區域內多個可用區域。
如果你不使用 ZRS,你的備份資料被視為 非區域, 可能儲存在任何區域。 若區域內任何區域出現問題,非區域備份資料可能無法取得。
圖示顯示了備份在三個可用區域間的區域韌性架構。 三欄分別代表可用區 1、可用區 2 和 可用區 3。 一個標示為備用核心服務的盒子涵蓋了三個區域。 在這個框下方,圖表顯示一單一列標示為 ZRS,並且跨越三個可用性區域。 在 ZRS 列下方,還有另一個框橫跨三個可用性區域。 這個盒子包含兩個雲端圖示,分別代表備份保險庫和復原服務保險庫。
需求
區域支援: 該服務在 所有有可用區域的區域自動具備區域韌性。 ZRS 保險庫在相同的區域中提供支援。
僅限新保管庫: 在第一次備份前,先在你的保管庫上設定 ZRS。
費用
當你啟用 ZRS 來備份時,因為額外的複寫和儲存開銷,收費會和 LRS 不同。 欲了解更多資訊,請參閱 備用定價。
設定可用性區域支援
建立一個使用 ZRS 的新保險庫: 建立保險庫時要設定儲存冗餘。 你會根據保險庫類型採取不同步驟。 如需詳細資訊,請參閱下列文章:
在現有保險庫上配置 ZRS: 對於備份保險庫,建立保險庫時請設定儲存冗餘。 建立備份保險庫後,設定會被鎖定,無法更改。
對於 Recovery Services 的保險庫,您必須先設定儲存冗餘,才能保護任何工作負載。 保護工作負載後,設定會被鎖定,無法更改。
你可以建立一個新的保險庫,設定使用 ZRS,並將你的工作負載重新指派到新的保險庫。 然而,這種做法需要停機時間。 欲了解更多資訊,請參閱 修改預設設定。 你還得手動刪除現有的恢復點和其他資料,因為舊儲存庫的保留原則已經不適用了。 欲了解更多資訊,請參閱 刪除備份保險庫 或 刪除復原服務保險庫。
所有區域都狀況良好時的行為
本節說明配置 ZRS 保險庫時,所有區域皆正常運作時,應期待的情況。
跨區作業: 備份工作會在跨區域複製的基礎設施上執行。 Azure 可以管理任何區域的基礎設施工作。
跨區域資料複製: ZRS 會跨區域複製備份資料。 複製是同步進行的,意即多個區域會在每次寫入操作完成前確認。
區域失敗期間的行為
本節說明當您為 ZRS 配置保險庫並且其中一個區域發生故障時,您可以預期會遇到的情況。
偵測與回應: 對於備份服務本身,Microsoft負責偵測可用性區域的故障並進行回應。 您不需要執行任何動作即可起始區域容錯移轉。
這很重要
對於因區域停電而無法使用的資料或資源,你有責任偵測停電並採取復原行動,包括將備份恢復到健康區域。
- Notification:當某個區域出現故障時,Microsoft不會自動發出通知。 不過,你可以使用 Azure 資源健康狀態 來監控單一資源的健康狀況,並且可以設定 資源健康狀態 警報來通知你問題。 你也可以使用 Azure 服務健康狀態 來了解整體服務的健康狀況,包括任何區域故障,並且可以設定 Service Health 警示來通知你問題。
目前的請求: 活躍中的工作的行為取決於哪個區域發生故障。
對於失效可用區中的任何資料來源,該區域失效會使該資料來源無法使用。 活躍的工作可能會暫停或失敗。
對於在健康可用性區域執行活躍工作的資料來源,平台切換到備份服務的健康可用性區域時,可能會有短暫的停機時間,通常只有幾秒鐘。
預期資料遺失:預期資料遺失量也稱為恢復點目標(RPO)。 備份資料的 RPO 取決於多種因素,包括你的備份排程。 一般而言,區域中斷時,因為所有資料皆同步複製於各區域,預期不會遺失備份資料。
預期的停機時間:預期停機時間也稱為恢復時間目標(RTO)。 RTO針對以下每種情境都不同:
對於失效可用區中的任何資料來源,這些資料來源可能要等到區域恢復前才可用。 備份工作可能在資料來源再次可用前無法執行。 RTO尚未定義。
對於任何處於健康可用性區域的資料來源,平台切換到健康可用性區域以進行備份服務時,可能會有短暫的停機時間,通常只有幾秒鐘。
重新劃分: 後續的工作執行會自動使用健康區域的基礎設施,只要資料來源可用即可。
你負責將備份還原到健康區域的基礎設施,並重新配置負載平衡器、客戶端及其他系統,將流量重新導向新區域的健康基礎設施。
區域復原
當可用區域恢復時,備份會自動恢復可用區域內的操作,並正常地重新路由各區域間的流量。 任務持續運行,數據依然可用。
測試區域失敗
備份平台負責管理流量路由、資料複製、故障轉移及故障恢復。 此功能完全受控,因此您不需要起始或驗證可用性區域失敗程序。
對區域範圍故障的復原能力
備份支援透過 GRS 和 CRR 的地理冗餘和故障轉移。
這很重要
備份 GRS 只在 配對的 Azure 區域內運作。
地理冗餘儲存與跨區域還原
為了實現備份資料的區域冗餘,請使用 Backup 將備份複製到
你部署金庫的區域稱為 主要區域。 你的資料來源必須位於主要區域。 你無法將備份設定到其他地區的保險庫。
配對區域也稱為 次級區域。
如果你沒有設定 GRS,且保險庫區域發生故障,你可能能存取保險庫並查看備份項目。 然而,若缺乏區域冗餘,底層備份資料仍無法用於還原操作。
跨區域還原
當你在保險庫上設定 GRS 時,若主區域發生故障,Microsoft 會使配對區域的備份變得可用。 如果你的資料來源支援 CRR,即使主區域沒有中斷,你也能從次要區域恢復點還原。 CRR 也讓你進行演練,評估對區域性停電的韌性。 當你開啟 CRR 時,Microsoft 會將你的備份儲存從 GRS 升級為可讀存取地理冗餘儲存(RA-GRS)。
需求
Region support: GRS for Backup 僅能在 配對的 Azure 區域內運作。
僅限新金庫: 你必須在第一次備份之前,在金庫中設定 GRS。
考慮事項
- CRR: 啟用CRR後,備用物品可能要等48小時才能在次要區域開放。
費用
GRS 保險庫在次級區域的跨區域複製與儲存會產生額外成本。 Azure 區域間的資料傳輸依標準跨區域頻寬速率收費。 CRR 收費不同,因為 Microsoft 會將你的保險庫儲存從 GRS 升級到 RA-GRS。 欲了解更多資訊,請參閱 備用定價。
設定多區域支援
建立一個使用 GRS 和 CRR 的新保險庫: 建立保險庫時,也應該設定儲存冗餘。 選擇 GRS 後,你可以選擇在保險庫啟用 CRR。 你所遵循的步驟取決於保險庫類型。 如需詳細資訊,請參閱下列文章:
在現有保險庫上設定GRS和CRR: 對於備份保險庫,你必須在建立保險庫時設定儲存冗餘。
對於 Recovery Services 的保險庫,您必須先設定儲存冗餘,才能保護任何工作負載。 工作負載被保護後,設定就會被鎖定,無法更改。
你可以在現有的 GRS 保險庫上啟用 CRR。 啟用 CRR 後,就無法關閉它。
當所有區域都正常時的行為
本節說明當你設定保存庫以使用 GRS 且所有地區運作時,會遇到什麼情況。
跨區域作業: 備份總是在主要區域完成,也就是部署保險庫和資料來源的區域。
跨區域資料複寫: 當你設定保險庫使用 GRS 時,備份會先透過 LRS 提交到主要區域。 在主要區域成功完成後,資料會非同步複製到次級區域。 次要區域則使用 LRS 來儲存資料。 備份資料從主要區域複製到次級區域可能需要長達 12 小時。
區域失敗期間的行為
本節說明當您設定保管庫使用 GRS 並且主要區域發生故障時,您會遇到什麼情況。
偵測與回應: 對於支援 CRR 且保險庫啟用 CRR 的資料來源,你可以隨時對配對區域發起自己的 CRR,包括區域中斷或災難期間。 你負責偵測故障並採取復原行動,包括將備份恢復到健康的區域。
在其他所有情況下,複製到次要區域的資料只有在 Azure 宣告主要區域災難時,才可於次要區域還原。 Microsoft 應該負責宣告災難。 宣告災難所需的時間取決於事件的嚴重程度以及評估情況所需的時間。 Microsoft 通常只有在一段時間後才會宣告災難。
Notification:Microsoft 不會自動通知你區域故障。 但是:
你可以使用 Azure 資源健康狀態 來監控單一資源的健康狀況,並且可以設定 資源健康狀態 警報來通知你問題。
你可以使用 Azure 服務健康狀態 來了解服務整體健康狀況,包括任何區域故障,並設定 Service Health alerts 來通知你問題。
預期資料遺失: 備份資料的 RPO 取決於多種因素,包括你的備份排程。 一般來說,遇到區域故障時,可能會有長達 36 小時的資料遺失,因為主要區域的 RPO 為 24 小時,並且從主要區域將備份資料複製到次要區域可能需要長達 12 小時。
預期的停機時間: RTO針對以下每種情境都不同:
失效區域的資料來源及其他資源可能要等到該區域恢復後才可用,因此 RTO 尚未定義。
備份可能無法在失敗區域執行備份或還原操作,直到該區域恢復,因此 RTO 未定義。
如果你使用 CRR,啟動已複製到配對區域備份還原的 RTO 是零。 如果不使用 CRR,RTO 的長短將取決於 Microsoft 在故障區域宣告災難所需的時間。
重新分配: 主區域離線時,無法執行任何備份工作。 你可以還原資料庫中的資料,但不能新增資料。
你負責將備份還原到配對區域內的基礎設施,並重新配置負載平衡器、用戶端及其他系統,將流量重新導向該區域的健康基礎設施。
區域復原
當主要區域恢復時,備份會自動恢復該區域的操作。 職缺履歷和數據仍然可用。
區域故障測試
你可以用 CRR 對配對區域執行還原操作。 你可以用這種方法來驗證還原和其他復原流程。
因應備份資料遺失的容錯能力
備份提供兩項關鍵的復原功能,以防止你的備份資料被意外或惡意刪除:
軟刪除讓你能在可設定的保留期間內恢復已刪除的物件和保管庫。 預設期間為14天,但你可以自行編輯。 把暫時刪除想像成您的備份和儲存庫的回收站。 欲了解更多資訊,請參閱「具有預設安全性的備份軟刪除」。
不可變的保險庫 能幫助你保護備份資料,阻止可能導致恢復點遺失的操作。 你可以鎖定不可變的保險庫設定,讓它變得不可逆。 你也可以用寫一次、讀取多重(WORM)儲存來備份,以防止惡意行為者禁用不可變性並刪除備份。 欲了解更多資訊,請參閱 Immutable Vault for Backup。
服務等級協定
Azure 服務的服務層級協議(SLA)描述了每項服務的預期可用性,以及您的解決方案必須符合的條件,以達成該可用性預期。 欲了解更多資訊,請參閱線上服務的 SLA。
備份服務等級協議涵蓋了備份與還原作業的可用性。 要符合 SLA 的保障,你需要每 30 分鐘至少重試一次失敗的備份或還原工作。
相關內容
- Azure 中的可靠性
- Azure 虛擬機器 的可靠性
- Azure 磁碟儲存體 的可靠性
Azure Site Recovery 中的可靠性