SQL Server 巨量資料叢集上的 Spark 機器學習簡介

發行項
05/04/2023

適用於：SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將於 2025 年 2 月 28 日結束。平台上將完全支援含軟體保證 SQL Server 2019 的所有現有使用者，而且軟體將會持續透過 SQL Server 累積更新來維護，直到該時間為止。如需詳細資訊，請參閱公告部落格文章與 Microsoft SQL Server 平台上的巨量資料選項。

本文說明如何在 SQL Server 巨量資料叢集上有效地使用適用於 Machine Learning 的 Spark。

SQL Server 巨量資料叢集上的 Spark Machine Learning

SQL Server 巨量資料叢集會使用不同的技術堆疊來啟用機器學習案例和解決方案：SQL Server 機器學習服務和 Apache Spark ML。

若要進一步了解使用每個技術堆疊的時機，請參閱 SQL Server 巨量資料叢集的機器學習指南。本指南涵蓋 Apache Spark ML。

針對巨量資料型機器學習案例，將 HDFS 用於巨量資料裝載和 Apache Spark ML 功能會更具成本效益、可調整且功能強大的方法。不過，這與 Spark Machine Learning 可以達成的可能性完整清單差距還很遠，如需完整的功能清單，請參閱：Spark MLlib。

下一節提供 SQL Server 巨量資料叢集中 Spark 的案例和參考策劃清單。

SQL Server 巨量資料叢集上 Spark Machine Learning 的建置組塊

Learn	目錄	連結
適用於 Apache Spark 的 SQL Server 巨量資料叢集執行階段	這會顯示每個版本隨附的內容	適用於 Apache Spark 的 SQL Server 巨量資料叢集執行階段指南
存放集區	如何一起儲存和使用 HDFS + Spark 來解除鎖定機器學習資料	SQL Server 巨量資料叢集中的存放集區簡介
使用筆記本型體驗和您選擇的工具	使用您選擇的工具連線 Spark-Livy 端點	在 Azure Data Studio 中於 SQL Server 巨量資料叢集上提交 Spark 作業在 Visual Studio Code 中於 SQL Server 巨量資料叢集上提交 Spark 作業在 SQL Server 巨量資料叢集中使用 sparklyr
如何安裝額外的套件	如果未提供現成套件，請加以安裝	Spark 程式庫管理
如何進行疑難排解	如果中斷	針對 `pyspark` 筆記本進行疑難排解在 Spark 歷程記錄伺服器中的 SQL Server 巨量資料叢集上，對 Spark 應用程式進行偵錯和診斷
如何提交機器學習批次作業	使用命令列執行 ML 定型和批次評分	使用命令列工具提交 Spark 作業
如何在 SQL Server 與 Spark 之間快速移動資料	讓 SQL Server 成為您的 Spark ML 案例的來源和/或目的地。使用 HDFS 並非必要	使用適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器
Spark 模型運算化	定型之後，使用 MLeap 運作	在 SQL Server 巨量資料叢集上建立、匯出及評分 Spark 機器學習模型
資料整頓	除了 Spark 的強大資料整頓功能之外，我們隨附 PROSE	使用 PROSE Code Accelerator 進行資料整頓

下一步

如需詳細資訊，請參閱 SQL Server 巨量資料叢集簡介。

共用方式為

SQL Server 巨量資料叢集上的 Spark 機器學習簡介

SQL Server 巨量資料叢集上的 Spark Machine Learning

SQL Server 巨量資料叢集上 Spark Machine Learning 的建置組塊

下一步

意見反應

其他資源