使用適用於 Azure 的 WANdisco LiveData Platform 將內部部署 Hadoop 資料遷移至 Azure Data Lake 儲存體 Gen2
適用於 Azure 的 WANdisco LiveData Platform 會將數 PB 的內部部署 Hadoop 數據遷移至 Azure Data Lake 儲存體 Gen2 檔系統,而不需要中斷數據作業或需要停機。 平台的持續檢查可防止數據遺失,同時在傳輸的兩端保持一致,即使進行修改也一致。
平臺包含兩個服務。 適用於 Azure 的 LiveData Migrateor 會主動使用內部部署環境的數據遷移至 Azure 記憶體,而 適用於 Azure 的 LiveData Plane 可確保所有已修改或內嵌的數據都會一致地複寫。
使用 Azure 入口網站 和 Azure CLI 來管理這兩項服務。 每個服務都會遵循與所有其他 Azure 服務相同的計量付費計費模型:Azure LiveData Platform for Azure 中的數據耗用量會出現在每月 Azure 賬單上,這會提供使用量計量。
不同於將靜態資訊複製到 Azure 資料箱或 DistCp 等 Hadoop 工具離線移轉數據,您可以在線上移轉與 WANdisco LiveData for Azure 期間維護商務系統的完整作業。 讓您的巨量數據環境即使在將數據移至 Azure 時也能運作。
適用於 Azure 的 WANdisco LiveData Platform 的主要優點
適用於 Azure 廣域網的 WANdisco LiveData Platform 能夠達成數據一致性,並大規模進行實時數據復寫。 如需詳細資訊,請參閱下列影片:
平臺的主要優點包括:
數據正確性:數據的端對端驗證可防止數據遺失,並確保傳輸的數據適合使用。
數據一致性:即使環境持續變更,數據磁碟區仍會自動保持一致。
數據效率:持續傳輸大量數據,並完全控制頻寬耗用量。
停機時間消除:在移轉期間自由建立、修改、讀取和刪除其他應用程式的數據,而不需要在數據傳輸至 Azure 期間中斷商務作業。 繼續操作應用程式、分析基礎結構、內嵌作業和其他處理。
簡單使用:使用平臺的 Azure 整合來建立、設定、排程及追蹤自動化移轉的進度。 此外,視需要設定選擇性數據復寫、Hive 元數據、數據安全性和機密性。
適用於 Azure 的 WANdisco LiveData Platform 的主要功能
平臺的主要功能包括下列各項:
元數據移轉:除了 HDFS 數據之外,還使用適用於 Azure 的 LiveData Migrateor 移轉元數據(從 Hive 和其他記憶體移轉元數據)。
排程傳輸:使用適用於 Azure 的 LiveData 移轉程式來控制和自動化何時起始數據傳輸,而不需要手動移轉數據變更。
Kerberos:Azure 支援 Kerberized 叢集的 LiveData 移轉器。
排除範本:在 Azure 的 LiveData 移轉器中建立規則,以防止將特定檔案大小或檔名(使用 glob 模式定義)移轉至您的目標記憶體。 在 Azure 入口網站 或 CLI 中建立排除範本,並將其套用至任意數目的移轉。
路徑對應:定義特定目標檔系統的替代目標路徑,以自動將傳輸的數據移至您指定的目錄。
帶寬管理:設定 Azure 的網路頻寬上限 LiveData 移轉器可用來防止頻寬過度耗用量。
排除專案:定義範本查詢,以防止移轉任何符合準則的檔案和目錄,讓您選擇性地從來源系統移轉數據。
計量:檢視 Azure LiveData Migrator 中數據傳輸的詳細數據,例如經過一段時間傳輸的檔案、排除的路徑、無法傳輸的專案等等。
在不具風險的情況下更快速地遷移巨量數據
WANdisco LiveData Platform for Azure 中包含的第一項服務是適用於 Azure 的 LiveData Migrateor,可將數據從內部部署環境遷移至 Azure 儲存體。 將 LiveData 移轉程式部署到內部部署 Hadoop 叢集之後,它會自動為您的文件系統建立最佳組態。 請從該處提供系統的 Kerberos 詳細數據。 然後,適用於 Azure 的 LiveData 移轉工具會準備好將數據遷移至 Azure 儲存體。
開始使用適用於 Azure 的 LiveData 移轉工具之前,請先檢閱這些 必要條件。
若要執行移轉:
在 Azure CLI 中:
- 執行
az provider register --namespace Wandisco.Fusion --consent-to-permissions
,在 Azure CLI 中註冊 WANdisco 資源提供者。 - 執行
az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>
以接受 LiveData Platform 的計量計費條款。
- 執行
將 LiveData 移轉器實例從 Azure 入口網站 部署到您的內部部署 Hadoop 叢集。 (您不需要變更或重新啟動叢集。
注意
適用於 Azure 的 WANdisco LiveData 移轉程式提供建立 Hadoop 測試叢集的選項。
如果適用,請設定 Kerberos 詳細數據。
定義已啟用 Gen2 的記憶體帳戶目標 Azure Data Lake 儲存體。
定義您要移轉的數據位置,例如:
/user/hive/warehouse
。開始移轉。
透過標準 Azure 工具監視移轉進度,包括 Azure CLI 和 Azure 入口網站。
使用適用於 Azure 的 LiveData Plane 雙向復寫作用中變更下的數據
LiveData Platform 中包含的第二個服務是 適用於 Azure 的 LiveData 平面。 LiveData 平面會使用 WANdisco 的協調引擎,藉由將變更套用至所有系統上的數據,在多個內部部署 Hadoop 叢集和 Azure 儲存體 之間保持數據一致,從而消除不同使用點的數據衝突風險。
初始移轉之後,請讓數據與適用於 Azure 的 LiveData Plane 保持一致:
從 Azure 入口網站 開始,在 Azure 中部署 Azure 和 Azure 中的 LiveData 平面。 不需要任何應用程式變更。
設定複寫規則,涵蓋您想要保持一致的數據位置,例如:
/user/contoso/sales/region/WA
。視需要在任一位置執行可存取和修改數據的應用程式。
適用於 Azure 的 LiveData Plane 會一致地在所有環境中複寫數據變更,而不會對叢集作業或應用程式效能造成重大影響。
試用產品或試用版
從 適用於 Azure Marketplace 的 LiveData Platform 頁面,您有兩個選項:
[ 立即 取得] 按鈕會啟動您訂用帳戶中的服務。 您可以從該處使用自己的 Hadoop 叢集或 WANdisco 的試用叢集。
選取 [試用產品 ] 以在預先設定並裝載您的環境中測試 Azure 的 LiveData 移轉程式。 這可讓您先試用適用於 Azure 的 LiveData 移轉程式,再將它新增至您的訂用帳戶,而不會對您的數據造成任何成本或風險。
後續步驟
- 在適用於 Azure 的 LiveData Migrationor 中規劃和建立移轉。