分享方式:


Azure 儲存體 磁帶移轉概觀

本文著重於磁帶移轉。 其旨在簡化、提供指引和考慮,以順利將儲存在各種磁帶媒體上的數據移轉至 Azure 記憶體服務。

概觀

磁帶會儲存大量的世界數據,而且仍然是其中一種主要類型的儲存媒體。 磁帶媒體存在數十年,而且每年大量使用數百 PB 的新磁帶。

磁帶是儲存冷數據的絕佳媒體。 它們在循序讀取中很快速,但需要機械移動的階段(如載入和卸除磁帶、磁帶搜尋等)的速度較慢。 這使得磁帶無法用於傳統、隨機式存取,而且是目前儲存在磁帶上的數據很少使用的主要原因。 此外,磁帶是需要特殊處理的磁媒體。 它們對環境特別敏感,尤其是溫度和濕度。 如果保存在其操作環境範圍內,則可以達到高持久性,並取得良好的還原成功率。 不過,當保留在不友好的環境中時,經常發生惡化,並轉譯磁帶無法讀取。

大部分的磁帶會儲存深色數據(建立和儲存的數據,但不會用於任何用途)。 深色數據不會為數據擁有者帶來任何值。 隨著 AI 功能和輔助功能的增加,趨勢正在改變。 客戶正在研究深色數據如何協助他們提高效率、開啟新的收入來源,或提高其競爭優勢。 為了利用深色數據,許多組織都考慮將數據從磁帶移轉至雲端記憶體。 雲端記憶體可讓您輕鬆地分析數據、擷取商業價值(使用 AI、機器學習、Azure 搜尋服務等服務),或利用封存記憶體進行長期保留來降低成本。

我們看到磁帶到雲端移轉增加的一些主要原因如下:

  • 從深色數據擷取商業價值,
  • 減少長期保留管理數據所需的工作
  • 避免從一個磁帶產生到另一個磁帶的移轉程式,
  • 降低數據遺失的風險,特別是針對較舊的一代磁帶,
  • 更換異地磁帶儲存設施,
  • 簡化災害復原程式,
  • 將 AI 和 ML 等新式工具套用至歷程記錄數據。

考量

在磁帶移轉程序開始之前,必須仔細考慮選項。 第一個考慮是決定誰執行移轉。 常用的兩個選項:

  • 客戶執行 移轉時客戶執行端對端移轉,
  • 客戶將磁帶運送到合作夥伴的磁帶移轉合作夥伴 ,合作夥伴會執行移轉程式。
方法 優點 缺點
客戶執行移轉 - 數據永遠不會離開網站
- 沒有運送磁帶的物流
- 需要硬體資源
- 將更多工作新增至人員
- 需要處理磁帶的特定知識
- 可能未知的成本
磁帶移轉合作夥伴 - 簡單的定價和已知的成本預付 (按磁帶付費)
- 不會影響生產環境
- 不會影響人員
- 需要運送磁帶的物流
- 由於運送磁帶而需要的安全性考慮
- 移轉期間數據可用性所需的多個複本

有幾個主要考慮可輕鬆地引導我們決定誰可以執行移轉、客戶或合作夥伴。

資源

資源是磁帶移轉程式最重要的部分,我們會將它們分成下列類別:

類別 備註
人員 - 需要特定一組技能
- 程式需要大量人力
硬體 - 不同的磁帶世代需要不同類型的硬體
- 移轉速度與可用的磁碟驅動器和網路頻寬成正比
軟體 - 需要存取建立數據的軟體
- 需要存取加密金鑰

硬體通常是最具挑戰性的部分。 如果我們要移轉現有的磁帶世代,硬體可以使用,但做為現有生產環境的一部分使用。 但對於較舊的磁帶世代來說,硬體通常是生命周期結束,而且很難取得。 使用較舊的磁帶產生時,使用磁帶移轉合作夥伴是慣用且更簡單的選項。 當生產硬體用於移轉時,需要仔細規劃,以確保移轉不會干擾生產工作負載。 我們在這裡可以套用三種不同的模型:

  1. 使用專用硬體進行移轉:最簡單的移轉模型、輕鬆排程,並規劃不會影響生產環境。 它增加了取得硬體的成本(如果尚未可用),並在移轉后造成低硬體使用率。
  2. 在生產硬體上執行移轉時數:移轉模型不會影響生產環境。 需要複雜的排程、執行,以及下班人員。 只有在生產硬體未使用 24x7 時,才可能。
  3. 一起執行生產環境,並一起移轉:最不慣用的移轉模型,因為它很容易影響生產環境。 此模型可減少生產環境可用的硬體、需要複雜的排程和規劃。 如果使用此模型,減少對生產環境的影響,對於控制移轉時程表至關重要。 只有在生產硬體使用率低時,才建議使用此模型。

資料傳輸選項

從磁帶讀取數據之後,必須將它移至 Azure 儲存體。 您可以使用網路或離線裝置來行動資料,例如 Azure 資料箱。 影響資料傳輸選項選擇的一些參數如下:

  • 可用的網路頻寬
  • 完成移轉所需的時程表
  • 數據變更的頻率

在這裡深入瞭解如何選取最佳選項的指引。 網路傳輸更簡單且慣用的選項。 也可以組合網路和離線方法,但需要更多規劃,以確保已移轉的數據不會重疊。

如果沒有可用的資源來執行移轉,無論資源類型為何,我們唯一的選項是使用磁帶移轉合作夥伴。 在此情況下,我們可以在兩個選項之間選擇:

  1. 在客戶網站上執行的移轉:磁帶移轉合作夥伴會提供硬體、僱用人員,並在客戶的位置上執行工作。 客戶需要提供磁帶的存取權、設備專用空間、網路連線,以及存取 Azure 儲存體 服務。 合作夥伴負責所有其他活動。
  2. 在合作夥伴網站上執行的移轉:客戶會將磁帶運送到合作夥伴,並提供 Azure 儲存體 服務的存取權。 磁帶移轉合作夥伴會執行所有工作,將數據從磁帶遷移至 Azure 儲存體。

第二個選項比較容易,而且更常用。 磁帶移轉合作夥伴具有設計且能夠大規模執行磁帶移轉的設施。 此選項也會降低風險,以及因為合作夥伴有更多可用的硬體資源,因此時程表。 只有在安全性,且隱私權考慮不允許客戶將磁帶寄送給合作夥伴時,才會在客戶網站上執行移轉。

數個合作夥伴可以執行磁帶移轉至 Azure。 您可以在離線媒體匯入中找到合作夥伴的完整清單。

以下是簡化選取程式的簡單流程圖。 顯示磁帶移轉選取程式的圖表。

資料格式

數據格式對移轉設計有很大的影響,而且是未來數據可用性的重要考慮。 數據可以以專屬或原生格式儲存。 專屬格式通常儲存為虛擬磁帶。 原生格式需要從磁帶還原檔案,並將其儲存為檔案或物件。

模型 優點 缺點
虛擬磁帶 - 更輕鬆且更快速的移轉
- 可以重新建立與原始相同的磁帶媒體
- 不需要存取原始軟體來寫入數據
- 需要維護虛擬磁帶清查
- 以應用程式相依格式儲存的數據,需要原始軟體才能還原數據
- Azure 服務無法存取的數據(AI/ML),而不需要還原
原生檔案 - 任何應用程式與服務都可以存取的檔案 (AI/ ML)
- 可能讓數據獲利
- 不需要存取原始軟體進行還原
- 更複雜的移轉
- 需要存取原始軟體以寫入數據

決定格式的主要準則是我們計劃使用數據的方式。 如果數據只針對長期保留進行移轉,則虛擬磁帶是不錯的選擇。 在其他情況下,以原生格式儲存數據是慣用的選項。 它可讓您在未來輕鬆使用數據,並透過數據分析開啟許多可能性。

移轉程序

一旦我們決定移轉執行,以及慣用的數據格式,我們可以從移轉開始。 移轉會經歷數個階段。 顯示磁帶移轉階段的圖表。

信息階段

信息階段對於收集重要需求至關重要。 收集的資訊指南正確設計和規劃。 雖然某些資訊可以在後續階段更新,但提供精確的資訊會設定場景,並避免需要對程序進行巨大的變更。 此階段需要回答的一些關鍵問題包括:

  • 需要移轉哪種類型的磁帶(例如 LTO3、LTO6、3592JC 等)。
  • 需要移轉之每個模型的磁帶數量為何(例如 100xLTO3、200xLTO6 等等)。
  • 哪些軟體是用來在磁帶上寫入數據,該軟體仍可使用?
  • 使用何種格式在磁帶上寫入數據,是否開啟或專屬格式會套用壓縮?
  • 是否使用加密,如果是,交換加密密鑰的最安全選項為何?
  • 目標區域為何?
  • 使用何種記憶體服務?
  • 哪些法規需求至關重要(HIPAA、GDPR 等)? 監管鏈是強制性的嗎?
  • 什麼是移轉期限? 是否有任何重要的里程碑?
  • 有多少網路頻寬可供移轉?
  • 磁帶實際儲存在哪裡,而且可以寄送?
  • 您是否已經有所有檔案的哈希值? 如果是,則會使用哪一種哈希演算法?
  • 移轉後是否需要磁帶?
  • 如何在移轉/傳輸期間維護磁帶的溫度和濕度?
  • 誰是主要項目關係人?

準備階段

收集基本資訊之後,我們可以準備移轉。 準備階段可以包含許多不同的步驟,但大部分移轉都有一些常見的步驟:

  1. 數據分析 提供需要移轉之數據的資訊。 信息對於估計從磁帶讀取數據的速度,以及我們需要達到多少平行處理原則,才能在期限前順利完成移轉非常重要。 它會影響對所需硬體的估計(連結庫、機器人、磁碟驅動器)。 數據分析是透過取樣多個磁帶來完成,這些磁帶代表要移轉的數據集。 我們正在尋找的一般資訊如下:

    • 檔案大小,
    • 每個磁帶儲存的數據量,
    • 每個磁帶的檔案數目,
    • 最小和檔案大小上限,
    • 檔案類型。
  2. 數據品質 有助於估計需要移轉的最終數據集和唯一數據集。 磁帶移轉最常見的問題之一是重複數據。 磁帶移轉是清除重複數據的理想時間。 此程式可改善未來使用的數據品質、降低成本,以及移轉的持續時間。

  3. 數據優先順序 決定數據可移轉的順序。 在理想情況下,我們想要從每個磁帶實現直接串流,而不是從不同的磁帶隨機讀取檔案(以避免不斷載入、卸除和搜尋)。 此方法可達到最高的輸送量,而且一律是最快速的移轉路徑。 數據優先順序採用商務需求和技術可行性,以達到最佳結果。

  4. 移轉設計 包含移轉的所有技術層面,以及可形成最終移轉程序的資訊。 這是一份書面檔,成為其餘階段的真相來源。 它至少必須包含:

    • 清除移轉程式,以及移轉期限
    • 硬體和人員需求、
    • 基礎結構和網路設計、
    • 安全性考慮,
    • 如何處理無法讀取的磁帶,
    • 角色和責任等。

移轉階段

移轉設計完成後,我們會開始移轉程式。 在提高到完整移轉步調之前,我們一律會以較小的樣本執行測試。 測試的目標是確保端對端程式正常運作。 它可讓我們進行調整,並改善程式。 一旦測試成功,且我們對結果感到滿意,我們會執行移轉。 如果我們使用原生檔案與虛擬磁帶,移轉階段會稍有不同。 在這兩種情況下,這是一個重複的程式,會迴圈所有磁帶,並讀取其整個內容。 此流程圖會顯示移轉至原生檔案時的移轉階段。 顯示移轉階段詳細數據的流程圖。

資料驗證

針對我們移轉的每個檔案,我們需要執行數據驗證,以確保數據在移轉過程中未損毀。 數據驗證是藉由在移轉之前和移轉之後比較哈希值來完成。 有許多類型的哈希演算法可以使用。 常見的方法是使用 MD5,因為 Azure 儲存體 包含可在移轉期間填入的預先定義元數據欄位 Content-MD5。 當我們存取數據以驗證數據未變更或損毀時,此方法允許檢查相同的 MD5 值。 在理想情況下,源數據已經包含哈希值,與移轉后哈希值相比很容易。 如果哈希不存在,則必須在移轉檔案之前加以計算。 如果哈希相符,檔案會標示為已移轉。 如果沒有,則會捨棄檔案,並再次移轉。 有時候來源磁帶上的數據已損毀。 擁有原始哈希值有助於攔截這些罕見的情況。 如果發生,我們可以從次要複本讀取數據,如果存在的話。 數據驗證程式是移轉設計的重要元件。 必須定義處理失敗驗證的程式。 移轉階段也會持續受到監視,以確保我們可以對無法預測的情況做出反應,並加以調整。 定期向主要專案關係人報告,對於讓移轉保持正軌很重要。

移轉後階段

移轉完成後,在成功關閉移轉專案之前,我們仍需考慮幾個步驟。 如有需要,我們需要處置用於移轉的硬體。 最重要的問題是如何處置磁帶。 磁帶處置是兩個步驟的程式。 如果磁帶正在儲存敏感性和機密資訊(且通常確實這麼做),則必須先予以消損。 解除管制可確保所有數據都會從媒體磁上刪除。 刪除之後,磁帶必須正確終結並回收。 如果我們使用磁帶移轉合作夥伴,也可以讓合作夥伴安全地處置磁帶。

下一步