SQL Server 巨量資料叢集上的 Spark 機器學習簡介
適用於:SQL Server 2019 (15.x)
重要
Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將於 2025 年 2 月 28 日結束。 平台上將完全支援含軟體保證 SQL Server 2019 的所有現有使用者,而且軟體將會持續透過 SQL Server 累積更新來維護,直到該時間為止。 如需詳細資訊,請參閱公告部落格文章與 Microsoft SQL Server 平台上的巨量資料選項。
本文說明如何在 SQL Server 巨量資料叢集上有效地使用適用於 Machine Learning 的 Spark。
SQL Server 巨量資料叢集上的 Spark Machine Learning
SQL Server 巨量資料叢集會使用不同的技術堆疊來啟用機器學習案例和解決方案:SQL Server 機器學習服務和 Apache Spark ML。
若要進一步了解使用每個技術堆疊的時機,請參閱 SQL Server 巨量資料叢集的機器學習指南。 本指南涵蓋 Apache Spark ML。
針對巨量資料型機器學習案例,將 HDFS 用於巨量資料裝載和 Apache Spark ML 功能會更具成本效益、可調整且功能強大的方法。 不過,這與 Spark Machine Learning 可以達成的可能性完整清單差距還很遠,如需完整的功能清單,請參閱:Spark MLlib。
下一節提供 SQL Server 巨量資料叢集中 Spark 的案例和參考策劃清單。
SQL Server 巨量資料叢集上 Spark Machine Learning 的建置組塊
Learn | 目錄 | 連結 |
---|---|---|
適用於 Apache Spark 的 SQL Server 巨量資料叢集執行階段 | 這會顯示每個版本隨附的內容 | 適用於 Apache Spark 的 SQL Server 巨量資料叢集執行階段指南 |
存放集區 | 如何一起儲存和使用 HDFS + Spark 來解除鎖定機器學習資料 | SQL Server 巨量資料叢集中的存放集區簡介 |
使用筆記本型體驗和您選擇的工具 | 使用您選擇的工具連線 Spark-Livy 端點 | 在 Azure Data Studio 中於 SQL Server 巨量資料叢集上提交 Spark 作業 在 Visual Studio Code 中於 SQL Server 巨量資料叢集上提交 Spark 作業 在 SQL Server 巨量資料叢集中使用 sparklyr |
如何安裝額外的套件 | 如果未提供現成套件,請加以安裝 | Spark 程式庫管理 |
如何進行疑難排解 | 如果中斷 | 針對 pyspark 筆記本進行疑難排解在 Spark 歷程記錄伺服器中的 SQL Server 巨量資料叢集上,對 Spark 應用程式進行偵錯和診斷 |
如何提交機器學習批次作業 | 使用命令列執行 ML 定型和批次評分 | 使用命令列工具提交 Spark 作業 |
如何在 SQL Server 與 Spark 之間快速移動資料 | 讓 SQL Server 成為您的 Spark ML 案例的來源和/或目的地。 使用 HDFS 並非必要 | 使用適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器 |
Spark 模型運算化 | 定型之後,使用 MLeap 運作 | 在 SQL Server 巨量資料叢集上建立、匯出及評分 Spark 機器學習模型 |
資料整頓 | 除了 Spark 的強大資料整頓功能之外,我們隨附 PROSE | 使用 PROSE Code Accelerator 進行資料整頓 |
下一步
如需詳細資訊,請參閱 SQL Server 巨量資料叢集簡介。