共用方式為


從 Azure 來回傳輸數據

視您的需求而定,有數個選項可用來將數據傳送至 Azure 和從 Azure 來回傳輸。

實體傳輸

使用實體硬體將數據傳輸到 Azure 是一個很好的選項:

  • 您的網路速度緩慢或不穩定。
  • 取得更多網路頻寬是成本高昂的。
  • 安全性或組織原則在處理敏感數據時不允許輸出連線。

如果您的主要考慮是傳輸資料所需的時間,您可能會想要執行測試,以確認網路傳輸是否比實體傳輸慢。

有兩個主要選項可將數據實際傳輸至 Azure:

Azure 匯入/匯出服務

Azure 匯入/匯出 服務可讓您將內部 SATA 硬碟 (HDD) 或 SSD 運送到 Azure 資料中心,安全地將大量數據傳輸到 Azure Blob 儲存體 或 Azure 檔案儲存體。 您也可以使用此服務將數據從 Azure 儲存體 傳輸至硬碟,並將磁碟驅動器運送到內部部署。

Azure 資料箱

Azure 數據箱是 Microsoft 提供的設備,其運作方式非常類似 匯入/匯出 服務。 透過資料箱,Microsoft 會提供專屬、安全且防竄改的傳輸設備,並處理端對端物流,您可以透過入口網站追蹤。 數據箱服務的其中一個優點是易於使用。 您不需要購買數個硬碟、準備硬碟,並將檔案傳輸至每個硬碟。 許多領先業界的 Azure 合作夥伴都支持數據箱,讓您更輕鬆地從其產品順暢地使用離線傳輸至雲端。

命令行工具和 API

當您要編寫文稿和程式設計資料傳輸時,請考慮這些選項:

  • Azure CLI 是一種跨平臺工具,可讓您管理 Azure 服務,並將數據上傳至 儲存體。

  • AzCopy。 從 WindowsLinux 命令行使用 AzCopy,以最佳效能輕鬆地將資料複製到 Blob 儲存體、Azure 檔案 儲存體 和 Azure 資料表 儲存體。 AzCopy 支援並行和平行處理原則,並且能夠繼續中斷的複製作業。 您也可以使用 AzCopy 將資料從 AWS 複製到 Azure。 為了以程序設計方式存取,Microsoft Azure 儲存體 數據移動連結庫是支援 AzCopy 的核心架構。 它會以 .NET Core 連結庫的形式提供。

  • 使用 PowerShell 時,Start-Azure 儲存體 BlobCopy PowerShell Cmdlet 是用於 PowerShell 的 Windows 系統管理員選項。

  • AdlCopy 可讓您將數據從 Blob 儲存體 複製到 Azure Data Lake 儲存體。 它也可以用來在兩個 Data Lake 儲存體 帳戶之間複製數據。 不過,它無法用來將數據從 Data Lake 儲存體 複製到 Blob 儲存體。

  • Distcp 可用來將數據複製到 DATA Lake 儲存體 帳戶,並將數據複製到 HDInsight 叢集記憶體(WASB)。

  • Sqoop 是 Apache 專案,也是 Hadoop 生態系統的一部分。 它預安裝在所有 HDInsight 叢集上。 它允許 HDInsight 叢集與關係資料庫之間的數據傳輸,例如 SQL、Oracle、MySQL 等等。 Sqoop 是相關工具的集合,包括匯入和匯出工具。 Sqoop 可搭配 HDInsight 叢集使用 Blob 儲存體 或 Data Lake 儲存體 連結記憶體。

  • PolyBase 是一種技術,可透過 T-SQL 語言存取資料庫外部的數據。 在 SQL Server 2016 中,它可讓您對 Hadoop 中的外部資料執行查詢,或從 Blob 儲存體 匯入或匯出數據。 在 Azure Synapse Analytics 中,您可以從 Blob 儲存體 和 Data Lake 儲存體 匯入或匯出數據。 目前,PolyBase 是將數據匯入 Azure Synapse Analytics 最快的方法。

  • 當您擁有位於 HDInsight 叢集前端節點上的數據時,請使用 Hadoop 命令行。 您可以使用 hadoop -copyFromLocal 命令將資料複製到叢集的附加記憶體,例如 Blob 儲存體 或 Data Lake 儲存體。 若要使用Hadoop命令,您必須先連線到前端節點。 連線之後,您可以將檔案上傳至記憶體。

圖形化介面

如果您只傳輸一些檔案或數據物件,且不需要將程式自動化,請考慮下列選項。

  • Azure 儲存體 Explorer 是一種跨平臺工具,可讓您管理 Azure 記憶體帳戶的內容。 它能讓您上傳、下載及管理 Blob、檔案、佇列、資料表與 Azure Cosmos DB 實體。 使用 Blob 儲存體 來管理 Blob 和資料夾,並在本機文件系統與 Blob 儲存體 之間或記憶體帳戶之間上傳和下載 Blob。

  • Azure 入口網站。 Blob 儲存體 和 Data Lake 儲存體 都提供 Web 介面,以探索檔案和上傳新檔案。 如果您不想安裝工具或發出命令來快速探索您的檔案,或如果您想要上傳少數新檔案,這個選項是不錯的選項。

數據同步處理和管線

  • Azure Data Factory 是最適合在許多 Azure 服務、內部部署系統或兩者組合之間定期傳輸檔案的受控服務。 藉由使用 Data Factory,您可以建立及排程稱為管線的數據驅動工作流程,從不同的數據存放區擷取數據。 Data Factory 可以使用 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics 和 Azure 機器學習 等計算服務來處理和轉換數據。 您可以建立數據驅動工作流程,以 協調 及自動化數據移動和數據轉換。

  • Data Factory 和 Azure Synapse Analytics 中的管線和活動 可用來建構數據移動和數據處理案例的端對端數據驅動工作流程。 此外, Azure Data Factory 整合運行時間 可用來跨不同的網路環境提供數據整合功能。

  • Azure 數據箱閘道 會從 Azure 來回傳輸數據,但它是虛擬設備,而不是硬碟。 位於內部部署網路中的虛擬機會使用網路文件系統 (NFS) 和 SMB 通訊協定將數據寫入資料箱閘道。 裝置接著會將您的數據傳輸至 Azure。

索引鍵選取準則

針對數據傳輸案例,請回答下列問題,為您的需求選擇適當的系統:

  • 您需要傳輸大量數據,在因特網連線上這麼做需要太長的時間、不可靠或太昂貴嗎? 如果是,請考慮實體傳輸。

  • 您偏好編寫數據傳輸工作的腳本,使其可重複使用? 如果是,請選取其中一個命令行選項或 Data Factory。

  • 您需要透過網路連線傳輸大量資料嗎? 如果是,請選取針對巨量數據優化的選項。

  • 您需要將資料傳送至關係資料庫或從關係資料庫傳輸數據嗎? 如果是,請選擇支援一或多個關係資料庫的選項。 其中一些選項也需要Hadoop叢集。

  • 您需要自動化的數據管線或工作流程協調流程嗎? 如果是,請考慮Data Factory。

功能矩陣

下表摘要說明功能的主要差異。

實體傳輸

功能 匯入/匯出 服務 資料箱
板型規格 內部 SATA HDD 或 SSD 安全、防竄改、單一硬體設備
Microsoft 管理航運物流 No Yes
與合作夥伴產品整合 No Yes
自訂設備 No Yes

命令列工具

Hadoop/HDInsight:

功能 Distcp Sqoop Hadoop CLI
針對巨量數據優化 Yes .是 Yes
複製到關係資料庫 No .是 No
從關係資料庫複製 No .是 No
複製到 Blob 儲存體 Yes .是 Yes
從 Blob 儲存體 複製 Yes .是 No
複製到 Data Lake 儲存體 Yes .是 Yes
從 Data Lake 儲存體 複製 Yes .是 No

其他

功能 Azure CLI AzCopy PowerShell AdlCopy PolyBase
相容的平臺 Linux、OS X、Windows Linux、Windows Windows Linux、OS X、Windows SQL Server、Azure Synapse Analytics
針對巨量數據優化 No .是 No 1 2
複製到關係資料庫 No Yes
從關係資料庫複製 No Yes
複製到 Blob 儲存體 Yes .是 .是 Yes
從 Blob 儲存體 複製 Yes .是 .是 .是 Yes
複製到 Data Lake 儲存體 No .是 .是 .是 Yes
從 Data Lake 儲存體 複製 No .是 .是 Yes

[1] AdlCopy 已針對搭配 Data Lake Analytics 帳戶使用時傳輸巨量數據優化。

[2] 藉由將計算推送至 Hadoop 並使用 PolyBase 向外延展群組來啟用 SQL Server 實例與 Hadoop 節點之間的平行數據傳輸,即可增加 PolyBase 效能。

圖形化介面、數據同步和數據管線

功能 Azure 儲存體總管 Azure 入口網站 * Data Factory 資料箱閘道
針對巨量數據優化 No .是 Yes
複製到關係資料庫 No .是 No
從關係資料庫複製 No .是 No
複製到 Blob 儲存體 .是 Yes
從 Blob 複製 儲存體 .是 No
複製到 Data Lake 儲存體 No .是 No
從 Data Lake 儲存體 複製 No .是 No
上傳至 Blob 儲存體 Yes .是 .是 Yes
上傳至 Data Lake 儲存體 Yes .是 .是 Yes
協調數據傳輸 No .是 No
自訂數據轉換 No .是 No
計價模式 免費 免費 依使用量付費 每單位付費

* 在此案例中 Azure 入口網站 代表 Blob 儲存體 和 Data Lake 儲存體 的 Web 型探索工具。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

下一步