使用適用於 Azure 的 WANdisco LiveData Platform 將內部部署 Hadoop 資料遷移至 Azure Data Lake 儲存體 Gen2

適用於 Azure 的 WANdisco LiveData Platform 會將數 PB 的內部部署 Hadoop 數據遷移至 Azure Data Lake 儲存體 Gen2 檔系統,而不需要中斷數據作業或需要停機。 平台的持續檢查可防止數據遺失,同時在傳輸的兩端保持一致,即使進行修改也一致。

平臺包含兩個服務。 適用於 Azure 的 LiveData Migrateor 會主動使用內部部署環境的數據遷移至 Azure 記憶體,而 適用於 Azure 的 LiveData Plane 可確保所有已修改或內嵌的數據都會一致地複寫。

實時數據平臺概觀圖例

使用 Azure 入口網站 和 Azure CLI 來管理這兩項服務。 每個服務都會遵循與所有其他 Azure 服務相同的計量付費計費模型:Azure LiveData Platform for Azure 中的數據耗用量會出現在每月 Azure 賬單上,這會提供使用量計量。

不同於將靜態資訊複製到 Azure 資料箱或 DistCpHadoop 工具離線移轉數據,您可以在線上移轉與 WANdisco LiveData for Azure 期間維護商務系統的完整作業。 讓您的巨量數據環境即使在將數據移至 Azure 時也能運作。

適用於 Azure 的 WANdisco LiveData Platform 的主要優點

適用於 Azure 廣域網的 WANdisco LiveData Platform 能夠達成數據一致性,並大規模進行實時數據復寫。 如需詳細資訊,請參閱下列影片:

平臺的主要優點包括:

  • 數據正確性:數據的端對端驗證可防止數據遺失,並確保傳輸的數據適合使用。

  • 數據一致性:即使環境持續變更,數據磁碟區仍會自動保持一致。

  • 數據效率:持續傳輸大量數據,並完全控制頻寬耗用量。

  • 停機時間消除:在移轉期間自由建立、修改、讀取和刪除其他應用程式的數據,而不需要在數據傳輸至 Azure 期間中斷商務作業。 繼續操作應用程式、分析基礎結構、內嵌作業和其他處理。

  • 簡單使用:使用平臺的 Azure 整合來建立、設定、排程及追蹤自動化移轉的進度。 此外,視需要設定選擇性數據復寫、Hive 元數據、數據安全性和機密性。

適用於 Azure 的 WANdisco LiveData Platform 的主要功能

平臺的主要功能包括下列各項:

  • 元數據移轉:除了 HDFS 數據之外,還使用適用於 Azure 的 LiveData Migrateor 移轉元數據(從 Hive 和其他記憶體移轉元數據)。

  • 排程傳輸:使用適用於 Azure 的 LiveData 移轉程式來控制和自動化何時起始數據傳輸,而不需要手動移轉數據變更。

  • Kerberos:Azure 支援 Kerberized 叢集的 LiveData 移轉器。

  • 排除範本:在 Azure 的 LiveData 移轉器中建立規則,以防止將特定檔案大小或檔名(使用 glob 模式定義)移轉至您的目標記憶體。 在 Azure 入口網站 或 CLI 中建立排除範本,並將其套用至任意數目的移轉。

  • 路徑對應:定義特定目標檔系統的替代目標路徑,以自動將傳輸的數據移至您指定的目錄。

  • 帶寬管理:設定 Azure 的網路頻寬上限 LiveData 移轉器可用來防止頻寬過度耗用量。

  • 排除專案:定義範本查詢,以防止移轉任何符合準則的檔案和目錄,讓您選擇性地從來源系統移轉數據。

  • 計量:檢視 Azure LiveData Migrator 中數據傳輸的詳細數據,例如經過一段時間傳輸的檔案、排除的路徑、無法傳輸的專案等等。

    LiveData

在不具風險的情況下更快速地遷移巨量數據

WANdisco LiveData Platform for Azure 中包含的第一項服務是適用於 Azure 的 LiveData Migrateor,可將數據從內部部署環境遷移至 Azure 儲存體。 將 LiveData 移轉程式部署到內部部署 Hadoop 叢集之後,它會自動為您的文件系統建立最佳組態。 請從該處提供系統的 Kerberos 詳細數據。 然後,適用於 Azure 的 LiveData 移轉工具會準備好將數據遷移至 Azure 儲存體。

適用於 Azure 架構的 LiveData 移轉器

開始使用適用於 Azure 的 LiveData 移轉工具之前,請先檢閱這些 必要條件

若要執行移轉:

  1. 在 Azure CLI 中:

    • 執行 az provider register --namespace Wandisco.Fusion --consent-to-permissions,在 Azure CLI 中註冊 WANdisco 資源提供者。
    • 執行 az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>以接受 LiveData Platform 的計量計費條款。
  2. 將 LiveData 移轉器實例從 Azure 入口網站 部署到您的內部部署 Hadoop 叢集。 (您不需要變更或重新啟動叢集。

    建立 LiveData 移轉器實例

    注意

    適用於 Azure 的 WANdisco LiveData 移轉程式提供建立 Hadoop 測試叢集的選項。

  3. 如果適用,請設定 Kerberos 詳細數據。

  4. 定義已啟用 Gen2 的記憶體帳戶目標 Azure Data Lake 儲存體。

    建立 LiveData 移轉器目標

  5. 定義您要移轉的數據位置,例如: /user/hive/warehouse

    建立 LiveData 移轉器移轉

  6. 開始移轉。

透過標準 Azure 工具監視移轉進度,包括 Azure CLI 和 Azure 入口網站。

使用適用於 Azure 的 LiveData Plane 雙向復寫作用中變更下的數據

LiveData Platform 中包含的第二個服務是 適用於 Azure 的 LiveData 平面。 LiveData 平面會使用 WANdisco 的協調引擎,藉由將變更套用至所有系統上的數據,在多個內部部署 Hadoop 叢集和 Azure 儲存體 之間保持數據一致,從而消除不同使用點的數據衝突風險。

適用於 Azure 架構的 LiveData 平面

初始移轉之後,請讓數據與適用於 Azure 的 LiveData Plane 保持一致:

  1. 從 Azure 入口網站 開始,在 Azure 中部署 Azure 和 Azure 中的 LiveData 平面。 不需要任何應用程式變更。

  2. 設定複寫規則,涵蓋您想要保持一致的數據位置,例如: /user/contoso/sales/region/WA

  3. 視需要在任一位置執行可存取和修改數據的應用程式。

適用於 Azure 的 LiveData Plane 會一致地在所有環境中複寫數據變更,而不會對叢集作業或應用程式效能造成重大影響。

試用產品或試用版

適用於 Azure Marketplace 的 LiveData Platform 頁面,您有兩個選項:

  • [ 立即 取得] 按鈕會啟動您訂用帳戶中的服務。 您可以從該處使用自己的 Hadoop 叢集或 WANdisco 的試用叢集。

  • 選取 [試用產品 ] 以在預先設定並裝載您的環境中測試 Azure 的 LiveData 移轉程式。 這可讓您先試用適用於 Azure 的 LiveData 移轉程式,再將它新增至您的訂用帳戶,而不會對您的數據造成任何成本或風險。

後續步驟

另請參閱