適用於:SQL Server 2019 (15.x)
Important
MICROSOFT SQL Server 2019 巨量數據叢集已淘汰。 SQL Server 2019 巨量數據叢集的支援已於 2025 年 2 月 28 日結束。 如需詳細資訊,請參閱 Microsoft SQL Server 平臺上的公告部落格文章和巨量數據選項。
在 SQL Server 2019 (15.x)中,SQL Server 巨量數據叢集可讓您部署在 Kubernetes 上執行的可調整 SQL Server、Spark 和 HDFS 容器叢集。 這些元件會並存執行,可供您讀取、寫入和處理來自 Transact-SQL 或 Spark 的巨量資料,讓您輕鬆地結合與分析具有大量巨量資料的高價值關聯式資料。
開始
- 首先,請參閱 開始使用 SQL Server 巨量數據叢集部署
- 如需最新版本的新功能,請參閱 版本資訊
- 如需常見問題,請參閱 巨量數據叢集常見問題
巨量數據叢集架構
下圖顯示 SQL Server 巨量資料叢集的元件:
Controller
控制器會為叢集提供管理和安全性。 其中包含控制服務、組態存放區和其他叢集層級服務,例如 Kibana、Grafana 和彈性搜尋。
Compute pool
計算集區會將計算資源提供給叢集。 其中包含在Linux Pod上執行 SQL Server 的節點。 計算集區中的 Pod 會分成 SQL 計算實例 ,以用於特定處理工作。
Data pool
資料池用於資料持久性。 數據集區包含一個或多個在 Linux 上執行 SQL Server 的 Pod。 它用來從 SQL 查詢或 Spark 作業擷取數據。
Storage pool
存放集區由在 Linux 上運行的 SQL Server、Spark 和 HDFS 組成的存放集區 Pod 組成。 SQL Server 巨量數據叢集中的所有記憶體節點都是 HDFS 叢集的成員。
Tip
如需深入探討巨量數據叢集架構和安裝,請參閱 工作坊:Microsoft SQL Server 巨量數據叢集架構。
App pool
應用程式部署可讓您在 SQL Server 巨量資料叢集上部署應用程式,方法是提供介面來建立、管理和執行應用程式。
情境和特色
SQL Server 巨量數據叢集可讓您彈性地與巨量數據互動。 您可以查詢外部數據源、將巨量數據儲存在 SQL Server 管理的 HDFS 中,或透過叢集查詢來自多個外部數據源的數據。 接著,您可以使用 AI、機器學習和其他分析工作的數據。
使用 SQL Server 巨量數據叢集來:
- 為 Kubernetes 上執行的 SQL Server、Spark 和 HDFS 容器部署可擴充叢集。
- 讀取、寫入及處理來自 Transact-SQL 或 Spark 的巨量資料。
- 輕鬆結合及分析含有大量巨量資料的高價值關聯式資料。
- 查詢外部資料來源。
- 在 SQL Server 的受控 HDFS 中儲存巨量資料。
- 透過叢集查詢來自多個外部資料來源的資料。
- 使用 AI、機器學習和其他分析工作的資料。
- 在巨量資料叢集中部署及執行應用程式。
- 使用 PolyBase 虛擬化數據。 使用外部數據表查詢外部 SQL Server、Oracle、Teradata、MongoDB 和一般 ODBC 數據源的數據。
- 使用 Always On 可用性群組技術,為 SQL Server 主要實例和所有資料庫提供高可用性。
下列各節提供這些案例的詳細資訊。
Data virtualization
藉由利用 PolyBase,SQL Server 巨量數據叢集可以查詢外部數據源,而不需要移動或複製數據。 SQL Server 2019 (15.x) 引進數據源的新連接器,如需詳細資訊,請參閱 PolyBase 2019 的新功能?。
Data lake
SQL Server 巨量數據叢集包含可調整的 HDFS 存放集區。 這可用來儲存巨量數據,可能從多個外部來源擷取。 巨量數據儲存在巨量數據叢集中的 HDFS 之後,您就可以分析及查詢數據,並將其與您的關係型數據結合。
整合式 AI 和機器學習
SQL Server 巨量數據叢集可針對儲存在 HDFS 存放集區和數據集區中的數據啟用 AI 和機器學習工作。 您可以使用 R、Python、Scala 或 Java,在 SQL Server 中使用 Spark 和內建 AI 工具。
管理和監視
管理和監視是透過命令行工具、API、入口網站和動態管理檢視的組合來提供。
您可以使用 Azure Data Studio 在巨量資料叢集上執行各種工作:
- 常見管理工作的內建程式碼片段。
- 能夠流覽 HDFS、上傳檔案、預覽檔案,以及建立目錄。
- 能夠建立、開啟和執行 Jupyter 相容的筆記本。
- 數據虛擬化精靈可簡化外部數據源的建立(由 數據虛擬化延伸模組啟用)。
Kubernetes concepts
SQL Server 巨量數據叢集是由 Kubernetes 所協調的 Linux 容器叢集。
Kubernetes 是開放原始碼容器協調器,可根據需求調整容器部署。 下表定義一些重要的 Kubernetes 術語:
| Term | Description |
|---|---|
| Cluster | Kubernetes 叢集是一組計算機,稱為節點。 一個節點會控制叢集,並指定為主節點。其餘節點為工作節點。 Kubernetes 控制平面負責在工作節點之間分配工作,並監視叢集的健康狀況。 |
| Node | 節點會執行容器化應用程式。 它可以是實體機器或虛擬機。 Kubernetes 叢集可以包含實體機器和虛擬機節點的混合。 |
| Pod | Pod 是 Kubernetes 不可分割的部署單元。 Pod 是執行應用程式所需的一或多個容器和相關資源的邏輯群組。 每個 Pod 都會在節點上執行;節點可以執行一或多個 Pod。 Kubernetes 主機會自動將 Pod 指派給叢集中的節點。 |
在 SQL Server 巨量數據叢集中,Kubernetes 負責叢集的狀態。 Kubernetes 會建置並設定叢集節點、將 Pod 指派給節點,以及監視叢集的健康情況。