共用方式為


Microsoft SQL Server 平臺上的巨量數據選項

適用於:SQL Server 2019 (15.x) 和更新版本

Microsoft SQL Server 2019 Big Clusters 是 SQL Server 平臺的附加元件,可讓您部署 Kubernetes 上執行的可調整 SQL Server、Spark 和 HDFS 容器叢集。 這些元件會並行執行,可讓您使用 Transact-SQL 或 Spark 連結庫來讀取、寫入及處理巨量數據,讓您輕鬆地結合和分析高價值關係型數據與非關係型巨量數據。 巨量數據叢集也可讓您使用PolyBase虛擬化數據,以便使用外部數據表查詢外部SQL Server、Oracle、Teradata、MongoDB和其他數據源的數據。 Microsoft SQL Server 2019 Big Clusters 附加元件會使用 AlwaysOn 可用性群組技術,為 SQL Server 主要實例和所有資料庫提供高可用性。

SQL Server 2019 巨量數據叢集附加元件會使用 Kubernetes 平臺在內部部署和雲端中執行,以進行 Kubernetes 的任何標準部署。 此外,SQL Server 2019 巨量數據叢集附加元件會與 Active Directory 整合,並包含角色型訪問控制,以滿足企業的安全性和合規性需求。

淘汰 SQL Server 2019 巨量數據叢集附加元件

在 2025 年 2 月 28 日,我們將淘汰 SQL Server 2019 巨量數據叢集。 平臺上將完全支援 SQL Server 2019 與軟體保證的所有現有使用者,且軟體將繼續透過 SQL Server 累積更新維護,直到該時間為止。 如需詳細資訊,請參閱 公告部落格文章

SQL Server 中 PolyBase 支援的變更

與 SQL Server 2019 巨量資料叢集停用相關的一些功能與擴展查詢有關。

Microsoft SQL Server 的 PolyBase 向外延展群組功能已淘汰。 從 SQL Server 2022 (16.x) 的產品中移除向外延展群組功能。 SQL Server 2019、SQL Server 2017 和 SQL Server 2016 的市售版本將繼續支持這些功能,直到這些產品終止服務為止。 PolyBase 數據虛擬化在 SQL Server 中繼續完全支援作為擴展功能。

Cloudera(CDP)和 Hortonworks(HDP)的 Hadoop 外部數據來源也會在市場上的所有版本的 SQL Server 中淘汰,並且不包含在 SQL Server 2022 中。 外部數據源的支援僅限於個別廠商主要支援的產品版本。 建議您使用 SQL Server 2022 (16.x) 中可用的新物件記憶體整合。

在 SQL Server 2022 (16.x) 和更新版本中,用戶必須在連線到 Azure 記憶體時,將外部數據源設定為使用新的連接器。 下表摘要說明變更:

外部資料來源 寄件者 發往
Azure Blob 儲存服務 wasb[s] abs
ADLS Gen 2 abfs[s] adls

備註

Azure Blob 儲存體(abs)將需要在資料庫範圍憑證中使用 Shared Access Signature (SAS) 來管理 SECRET。 在 SQL Server 2019 和更早版本中,wasb[s] 連接器會使用儲存體帳戶金鑰搭配資料庫範圍認證來驗證 Azure 儲存體帳戶。

瞭解巨量數據叢集架構以進行取代和移轉選項

若要建立巨量數據儲存和處理系統的替代解決方案,請務必瞭解 SQL Server 2019 巨量數據叢集所提供的功能,其架構有助於通知您的選擇。 巨量數據叢集的架構如下所示:

顯示 SQL Server 2019 巨量數據叢集架構概觀的圖表。

此架構提供以下功能映射:

元件 優點
Kubernetes (簡體中文) 開放原始碼協調器,用於大規模部署和管理容器型應用程式。 提供宣告式方法,以針對具有彈性規模的整個環境建立及控制復原、備援和可移植性。
巨量數據叢集控制器 提供叢集的管理和安全性。 其中包含控制服務、組態存放區和其他叢集層級服務,例如 Kibana、Grafana 和彈性搜尋。
計算集區 提供叢集的計算資源。 其中包含在Linux Pod上執行 SQL Server 的節點。 計算集區中的 Pod 會分成 SQL 計算實例,以用於特定處理工作。 此元件也提供使用PolyBase來查詢外部數據源的數據虛擬化,而不需要移動或複製數據。
數據集區 提供叢集的數據持續性。 數據集區包含一個或多個在 Linux 上執行 SQL Server 的 Pod。 它用來從 SQL 查詢或 Spark 作業擷取數據。
儲存池 存放集區由在 Linux 上運行的 SQL Server、Spark 和 HDFS 組成的存放集區 Pod 組成。 巨量數據叢集中的所有記憶體節點都是 HDFS 叢集的成員。
應用程式集區 藉由提供介面來建立、管理及執行應用程式,以在巨量數據叢集上部署應用程式。

如需這些函式的詳細資訊,請參閱 SQL Server 巨量數據叢集簡介

巨量數據和 SQL Server 的功能替代方案

在巨量資料叢集中,SQL Server 所促進的營運資料功能,可以在混合式組態中由內部部署的 SQL Server 或使用 Microsoft Azure 平台來取代。 Microsoft Azure 提供完全受控的關係型、NoSQL 和記憶體內部資料庫的選擇,橫跨專屬和開放原始碼引擎,以符合新式應用程式開發人員的需求。 基礎結構管理,包括延展性、可用性和安全性,是自動化的,可節省您的時間和金錢,並可讓您專注於建置應用程式,而 Azure 管理的資料庫可透過內嵌智慧、不限制調整及管理安全性威脅來簡化您的作業。 如需詳細資訊,請參閱 Azure 資料庫

下一個決策點是用於 分析的計算和數據記憶體位置。 這兩個架構選擇是雲端和混合式部署。 大部分的分析工作負載都可以遷移至 Microsoft Azure 平臺。 「誕生於雲端」的數據(源自雲端式應用程式)是這些技術的主要候選專案,而數據移動服務可以安全地且快速地移轉大規模內部部署數據。 如需有關數據行動選項的詳細資訊,請參閱 資料傳輸解決方案

Microsoft Azure 具有系統與認證,可在各種工具中安全地處理數據和數據處理。 如需這些認證的詳細資訊,請參閱 信任中心

備註

Microsoft Azure 平臺提供非常高的安全性層級、各種產業的多個認證,並針對政府需求接受數據主權。 Microsoft Azure 也有適用於政府工作負載的專用雲端平臺。 單獨安全性不應該是內部部署系統的主要決策點。 在決定在內部部署保留巨量數據解決方案之前,您應該仔細評估 Microsoft Azure 所提供的安全性層級。

雲端架構 選項中,所有元件都位於 Microsoft Azure。 您的責任在於您為工作負載儲存和處理所建立的數據和程序代碼。 本文將詳細說明這些選項。

  • 此選項最適合用於儲存和處理數據的各種元件,以及當您想要專注於數據處理建構而非基礎結構時。

混合式架構 選項中,某些元件會保留在內部部署,而其他元件則放在雲端提供者中。 雙方之間的連接是為最佳化處理與數據關係而設計的。

  • 當您對內部部署技術和架構進行大量投資時,此選項最適合,但您希望使用 Microsoft Azure 提供的服務,或者當您有處理和應用程式目標位於內部部署或面向全球使用者時。

如需建置可調整架構的詳細資訊,請參閱建置 適用於大量數據的可調整系統

雲端中的

搭配 Synapse 的 Azure SQL

您可以使用一或多個 Azure SQL 資料庫選項來取代 SQL Server 大數據叢集的功能,並針對分析工作負載,使用 Microsoft Azure Synapse。

Microsoft Azure Synapse 是一項企業分析服務,可使用分散式處理和數據建構,加速跨數據倉儲和巨量數據系統深入解析的時間。 Azure Synapse 將企業數據倉儲中使用的 SQL 技術、用於巨量數據的 Spark 技術、用於數據整合的管線和 ETL/ELT,以及與其他 Azure 服務進行深度整合,例如 Power BI、Cosmos DB 和 Azure Machine Learning。

當您需要下列作業時,請使用 Microsoft Azure Synapse 取代 SQL Server 2019 巨量數據叢集:

  • 同時使用無伺服器和專用資源模型。 針對可預測的效能和成本,請建立專用 SQL 集區來為 SQL 資料表中所儲存的資料保留處理效能。
  • 處理非計劃性或突發性工作負載,並存取無伺服器的永久可用 SQL 端點。
  • 使用內建串流功能,將數據從雲端數據源送入 SQL 數據表。
  • 使用機器學習模型將 AI 與 SQL 整合,以使用 T-SQL PREDICT 函式來評分數據。
  • 針對由 Linux Foundation Delta Lake 支援的 Apache Spark 2.4,使用 SparkML 算法,並結合 Azure 機器學習進行整合來運行 ML 模型。
  • 使用簡化的資源模型,讓您不必擔心管理叢集。
  • 處理需要快速啟動Spark並積極自動縮放的數據。
  • 使用.NET處理 Spark 數據,讓您在 Spark 應用程式中重複利用 C# 專業知識和現有的 .NET 程式碼。
  • 使用 Data Lake 中檔案上定義的數據表,由 Spark 或 Hive 順暢地取用。
  • 使用 SQL 搭配 Spark 直接探索和分析儲存在數據湖中的 Parquet、CSV、TSV 和 JSON 檔案。
  • 在 SQL 和 Spark 資料庫之間啟用快速、可調整的數據載入。
  • 從 90 個以上的數據源擷取數據。
  • 使用資料流動活動啟用「免程式碼」ETL。
  • 協調筆記本、Spark 作業、預存程式、SQL 腳本等等。
  • 監視跨 SQL 和 Spark 的資源、使用量和使用者。
  • 使用角色型訪問控制來簡化分析資源的存取。
  • 撰寫 SQL 或 Spark 程式代碼,並與企業 CI/CD 程式整合。

Microsoft Azure Synapse 的架構如下所示:

顯示 Azure Synapse 架構概觀的圖表。

如需Microsoft Azure Synapse 的詳細資訊,請參閱 什麼是 Azure Synapse Analytics?

Azure SQL 加上 Azure Machine Learning

您可以使用一或多個 Azure SQL 資料庫選項來替代 SQL Server 巨量數據叢集的操作性資料功能,並使用 Microsoft Azure Machine Learning 來處理預測性工作負載。

Azure Machine Learning 是一種雲端式服務,可用於任何類型的機器學習服務,從傳統 ML 到深度學習、監督式和非監督式學習。 無論您偏好使用 SDK 撰寫 Python 或 R 程式代碼,或在 Studio 中使用無程式代碼/低程式碼選項,都可以在 Azure Machine Learning 工作區中建置、定型和追蹤機器學習和深度學習模型。 透過 Azure Machine Learning,您可以在本機電腦上開始訓練,然後向外延展至雲端。 此服務也會與熱門的深度學習和增強式開放原始碼工具 (例如 PyTorch、TensorFlow、scikit-learn 和 Ray RLlib) 交互操作。

視需要使用 Microsoft Azure Machine Learning 取代 SQL Server 2019 巨量數據叢集:

  • 以設計師為導向的 Machine Learning Web 環境:拖曳模組建置實驗,然後在低代碼環境中部署管線。
  • Jupyter Notebook:使用我們的範例筆記本或建立您自己的筆記本,以針對您的機器學習使用適用於 Python 的 SDK 範例。
  • 使用 SDK for R 撰寫您自己的程式代碼或使用設計工具中的 R 模組的 R 腳稿或筆記本。
  • 許多模型解決方案加速器建置在 Azure Machine Learning 上,可讓您定型、作及管理數百或甚至數千個機器學習模型。
  • Visual Studio Code 的機器學習延伸模組 (預覽版) 提供功能完整的開發環境,讓您建置和管理機器學習專案。
  • Azure Machine Learning Command-Line 介面 (CLI), Azure Machine Learning 包含 Azure CLI 擴充功能,可提供從命令行使用 Azure Machine Learning 資源進行管理的命令。
  • 與開放原始碼架構整合,例如 PyTorch、TensorFlow 和 scikit-learn,以及更多用於訓練、部署和管理端對端機器學習程式。
  • 使用Ray RLlib進行增強式學習。
  • MLflow 可追蹤計量並部署模型或 Kubeflow,以建置端對端工作流程管線。

Microsoft Azure Machine Learning 部署的架構如下所示:

顯示工作區及其元件之 Azure Machine Learning 架構的圖表。

如需 Microsoft Azure Machine Learning 的詳細資訊,請參閱 Azure Machine Learning 的運作方式

來自 Databricks 的 Azure SQL

您可以使用一或多個 Azure SQL 資料庫選項來取代 SQL Server 巨量數據叢集的功能,並使用 Microsoft Azure Databricks 處理您的分析工作負載。

Azure Databricks 是一個針對 Microsoft Azure 雲端服務平台進行最佳化的資料分析平台。 Azure Databricks 提供兩個環境來開發需要大量數據的應用程式:Azure Databricks SQL Analytics 和 Azure Databricks 工作區。

Azure Databricks SQL Analytics 為想要在其數據湖上執行 SQL 查詢的分析師提供易於使用的平臺,建立多個視覺效果類型來探索不同觀點的查詢結果,以及建置和共用儀錶板。

Azure Databricks 工作區提供互動式工作區,可讓您在數據工程師、數據科學家和機器學習工程師之間進行共同作業。 針對巨量資料管理管線,數據(無結構或有結構)會透過 Azure Data Factory 以批次的方式匯入至 Azure,或使用 Apache Kafka、事件中樞或 IoT 中樞進行近乎即時的串流。 此資料會進入資料湖中,以便在 Azure Blob 儲存或 Azure 資料湖儲存中長期保存。 在分析工作流程中,使用 Azure Databricks 從多個數據源讀取數據,並使用 Spark 將其轉換成突破性的見解。

視需要使用 Microsoft Azure Databricks 取代 SQL Server 2019 巨量數據叢集:

  • 使用 Spark SQL 和 DataFrames 的完全受控 Spark 叢集。
  • 針對分析和互動式應用程式進行實時數據處理和分析的串流,與 HDFS、Flume 和 Kafka 整合。
  • MLlib 連結庫的存取權,包含常見的學習演算法和公用程式,包括分類、回歸、叢集、共同作業篩選、維度縮減和基礎優化基本類型。
  • 在 R、Python、Scala 或 SQL 筆記本中記錄您的進度。
  • 使用熟悉的工具,例如 Matplotlib、ggplot 或 d3,在幾個步驟中可視化數據。
  • 用來建立動態報表的互動式儀錶板。
  • GraphX,適用於圖形和圖形計算,適用於從認知分析到數據探索的廣泛使用案例。
  • 叢集在秒內建立,配備動態自動調整功能,並可在團隊之間共享。
  • 使用 REST API 以程式設計方式存取叢集。
  • 每個版本推出時,立即存取最新的 Apache Spark 功能。
  • Spark Core API:包含 R、SQL、Python、Scala 和 Java 的支援。
  • 用於探索和視覺效果的互動式工作區。
  • 雲端中完全受控的 SQL 端點。
  • 根據查詢延遲和並行用戶數目而設定規模的完全受控 SQL 端點上執行的 SQL 查詢。
  • 與 Microsoft Entra ID 整合(先前稱為 Azure Active Directory)。
  • 適用於筆記本、叢集、作業和數據的精細用戶權限控制的角色型存取。
  • 企業級 SLA。
  • 用於分享深入見解的儀錶板,將視覺化和文本結合起來,以分享從查詢中獲得的見解。
  • 警示可協助您監視和整合,並在查詢返回的欄位符合臨界值時通知您。 使用警示來監視您的業務,或將警示與工具整合來啟動工作流程,例如使用者上線或支援票證。
  • 企業安全性,包括Microsoft Entra ID整合、角色型控件,以及保護數據和業務的 SLA。
  • 與 Azure 服務和 Azure 資料庫和存放區整合,包括 Synapse Analytics、Cosmos DB、Data Lake Store 和 Blob 記憶體。
  • 與 Power BI 和其他 BI 工具整合,例如 Tableau Software。

Microsoft Azure Databricks 部署的架構如下所示:

圖表:Azure Databricks 工作區的架構及其元件和數據流,從人員到應用程式。

如需Microsoft Azure Databricks 的詳細資訊,請參閱 什麼是 Databricks 數據科學與工程?

混合式

網狀架構鏡像資料庫

作為數據復寫體驗, Fabric 中的資料庫鏡像 是低成本且低延遲的解決方案,可將各種系統的數據結合到單一分析平臺。 您可以持續將現有的數據資產直接復寫到 Fabric 的 OneLake,包括來自 Azure SQL Database、Snowflake 和 Cosmos DB 的數據。

有了 OneLake 中可查詢格式的最新資料,您現在可以在 Fabric 中使用所有不同的服務,例如使用 Spark 執行分析、執行筆記本、資料工程、透過 Power BI 報表視覺化等等。

Fabric 中的反映功能提供了輕鬆的使用體驗,以加速獲得洞察和做出決策的速度,並且消除技術解決方案之間的數據孤島,而無需開發昂貴的擷取、轉換和載入(ETL)流程來移動數據。

使用 Fabric 的鏡像功能時,您不需要將不同供應商的服務整合在一起。 相反地,您可以享受高度整合、端對端且易於使用的產品,其設計目的是簡化分析需求,並針對可讀取開放原始碼 Delta Lake 資料表格式的技術解決方案之間的開放和共同作業而建置。

如需詳細資訊,請參閱:

SQL Server 2022(16.x)包含一項新功能,允許 SQL Server 數據表與 Microsoft Azure Synapse 平臺連接,使用「適用於 SQL 的 Azure Synapse Link」。 適用於 SQL Server 2022 的 Azure Synapse Link (16.x) 提供自動變更摘要,以擷取 SQL Server 內的變更,並將其載入 Azure Synapse Analytics。 它提供近乎即時的分析與混合式交易和分析處理,對作系統的影響最小。 一旦數據位於 Synapse 中,您就可以將其與許多不同的數據源結合,不論其大小、規模或格式為何,並使用您選擇的 Azure Machine Learning、Spark 或 Power BI 來執行強大的分析。 由於自動化變更摘要只會推送新功能或不同專案,因此數據傳輸的速度會更快,現在允許近乎即時的深入解析,而且對 SQL Server 2022 (16.x) 源資料庫的效能影響最小。

針對您的作業,甚至是大部分的分析工作負載,SQL Server 可以處理大量資料庫大小 - 如需 SQL Server 容量規格上限的詳細資訊,請參閱 依 SQL Server 版本計算容量限制。 在具有分割 T-SQL 要求的不同電腦上使用多個 SQL Server 實例,可讓應用程式使用向外延展環境。

使用 PolyBase 可讓您的 SQL Server 實例直接從 SQL Server、Oracle、Teradata、MongoDB 和 Cosmos DB 查詢 T-SQL 數據,而不需個別安裝用戶端連線軟體。 您也可以在 Microsoft Windows 實例上使用泛型 ODBC 連接器,以使用第三方 ODBC 驅動程式連線到其他提供者。 PolyBase 可讓 T-SQL 查詢將數據從外部來源聯結至 SQL Server 實例中的關係型數據表。 這可讓數據保持其原始位置和格式。 您可以透過 SQL Server 實例虛擬化外部數據,以便像 SQL Server 中的其他資料表一樣,就地查詢外部數據。 SQL Server 2022 (16.x) 也允許透過 Object-Store 進行臨機作查詢和備份/還原(使用 S3-API) 硬體或軟體儲存選項。

一般來說,有兩種參考架構:第一種是在獨立伺服器上使用 SQL Server 進行結構化數據查詢,並且安裝一個向外擴展的非關係系統(如 Apache Hadoop 或 Apache Spark)以連結至內部的 Synapse。另一個選項是使用 Kubernetes 叢集中的一組容器,來整合解決方案的所有元件。

Microsoft SQL Server 在 Windows 上,Apache Spark 和內部部署的物件存儲。

您可以在 Windows 或 Linux 上安裝 SQL Server,並使用 SQL Server 2022 (16.x) 物件記憶體查詢功能和 PolyBase 功能來擴大硬體架構,以啟用系統中所有數據的查詢。

安裝及設定向外延展平臺,例如 Apache Hadoop 或 Apache Spark,可讓您大規模查詢非關係型數據。 使用支援 S3-API 的一組中央 Object-Storage 系統,可讓 SQL Server 2022 (16.x) 和 Spark 存取所有系統上的相同數據集。

適用於 SQL Server 和 Azure SQL 的 Microsoft Apache Spark 連接器也可讓您使用 Spark 作業直接從 SQL Server 查詢數據。 如需適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器的詳細資訊,請參閱 Apache Spark 連接器:SQL Server 和 Azure SQL

您也可以使用 Kubernetes 容器協調流程系統來進行部署。 這可讓宣告式架構在內部部署或支援 Kubernetes 或 Red Hat OpenShift 平臺的任何雲端中執行。 若要深入瞭解如何將 SQL Server 部署至 Kubernetes 環境,請參閱在 Azure 上部署 SQL Server 容器叢集 ,或觀看 在 Kubernetes 中部署 SQL Server 2019

當您需要以下操作時,可以使用內部部署的 SQL Server 和 Hadoop/Spark 來替代 SQL Server 2019 巨量數據叢集的功能:

  • 保留整個內部部署解決方案
  • 針對解決方案的所有部分使用專用硬體
  • 從相同架構存取關係型和非關係型數據,雙向
  • 在 SQL Server 與向外延展非關係型系統之間共用一組非關係型數據

執行移轉。

一旦您挑選了移轉的位置(In-Cloud 或混合式),您應該評估停機時間和成本因素,從而判斷是即時運行一個新系統,並將數據從上一個系統轉移到新系統(並存移轉),還是進行備份和還原,或從現有數據來源重新啟動系統(就地移轉)。

您的下一個決定是使用新的架構選擇重寫系統中目前的功能,或盡可能將程式代碼移至新系統。 雖然先前的選擇可能需要更長的時間,但它可讓您使用新架構所提供的新方法、概念和優點。 在此情況下,數據存取和功能的映射是您應該專注於的主要規劃工作。

如果您打算盡可能少地遷移目前的系統,語言相容性是您規劃的主要焦點。

程式代碼移轉

下一個步驟是稽核目前系統所使用的程式代碼,以及針對新環境執行所需的變更。

程式代碼移轉有兩個主要向量需要考慮:

  1. 來源和接收
  2. 功能移轉

來源和接收

程式代碼移轉的第一項工作是識別程式代碼用來存取所匯入數據、其路徑和最終目的地的數據源連接方法、字串或 API。 記錄這些來源,並制定一份對應至新架構位置的地圖。

  • 如果目前的解決方案使用 管線 系統來使資料在系統中流動,請將新的架構來源、步驟和匯集端對應至管線的元件。
  • 如果新的解決方案也會取代 管線 架構,請將系統視為新的安裝,以便進行規劃,即使您將硬體或雲端平臺重複使用為替代專案也一樣。

功能移轉

移轉所需的最複雜工作是參考、更新或撰寫目前系統功能的文件。 如果您要規劃就地升級,並嘗試盡可能減少程式代碼重寫量,此步驟會花費最多時間。

不過,從先前技術進行移轉通常是更新自己技術最新進展的最佳時機,並利用其所提供的建構。 通常,您可以藉由重寫目前的系統來獲得更多安全性、效能、功能選擇,甚至成本優化。

不論是哪一種情況,您都有兩個主要因素涉及移轉:新系統支援的程式代碼和語言,以及數據移動方面的選擇。 通常,您應該能夠將連接字串從目前的巨量數據叢集變更為 SQL Server 實例和 Spark 環境。 任何數據連線資訊和代碼轉換都應該儘量保持最少。

如果您設想重寫目前的功能,請將新的連結庫、套件和 DLL 對應至您為移轉選擇的架構。 您會在上一節所示的文檔參考中找到每個庫、語言和功能的清單。 使用所選架構找出任何可疑或不支援的語言,然後規劃替換。

數據遷移選項

大規模分析系統中的數據移動有兩種常見方法。 第一個是建立「切換」過程,讓原始系統繼續處理數據,並將該數據匯總成一組較小範圍的匯總報告數據來源。 然後,新系統會從新的數據開始,並從移轉日期開始使用。

在某些情況下,所有數據都必須從舊版系統移至新系統。 在這種情況下,如果新系統支援掛載,您可以從 SQL Server 巨量數據叢集中掛載原始檔案存放區,然後將資料分次複製到新系統,或者進行實體移動。

將目前的數據從 SQL Server 2019 巨量數據叢集移轉至另一個系統,高度相依於兩個因素:目前數據的位置,以及目的地為內部部署或雲端。

內部部署資料遷移

針對內部部署至內部部署移轉,您可以使用備份和還原策略來移轉 SQL Server 數據,也可以設定複寫來移動部分或所有關係型數據。 SQL Server Integration Services 也可以用來將數據從 SQL Server 複製到另一個位置。 如需使用 SSIS 移動資料的詳細資訊,請參閱 SQL Server Integration Services

針對您目前 SQL Server 巨量資料叢集中的 HDFS 數據,標準方法是將數據掛載到獨立的 Spark 叢集,並使用物件儲存過程來移動數據,使得 SQL Server 2022(16.x)實例可以存取它,或保持 as-is 並繼續使用 Spark 作業來處理它。

雲端內數據遷移

針對位於雲端記憶體或內部部署的數據,您可以使用 Azure Data Factory,其具有超過 90 個連接器,可供完整傳輸管線使用排程、監視、警示和其他服務。 如需 Azure Data Factory 的詳細資訊,請參閱 什麼是 Azure Data Factory?

如果您想要安全地快速地將大量數據從本機數據資產移至 Microsoft Azure,您可以使用 Azure 匯入/導出服務。 Azure 匯入/匯出服務可用來將大量數據安全地匯入 Azure Blob 記憶體和 Azure 檔案記憶體,方法是將磁碟驅動器傳送至 Azure 數據中心。 這項服務也能用來將資料從 Azure Blob 儲存體傳輸到磁碟機,然後運送到您的內部部署網站。 來自一或多個磁碟機的資料可匯入 Azure Blob 儲存體或 Azure 檔案服務中。 對於極大量的數據,使用此服務可以是最快的路徑。

如果您想要使用Microsoft提供的磁碟驅動器來傳輸數據,您可以使用 Azure 資料箱磁碟將數據匯入 Azure。 如需詳細資訊,請參閱 什麼是 Azure 匯入/匯出服務?

如需這些選擇及其隨附決策的詳細資訊,請參閱 使用 Azure Data Lake Storage Gen1 進行巨量數據需求