適用於:SQL Server 2019 (15.x)
這很重要
Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將於 2025 年 2 月 28 日結束。 平台上將完全支援含軟體保證 SQL Server 2019 的所有現有使用者,而且軟體將會持續透過 SQL Server 累積更新來維護,直到該時間為止。 如需詳細資訊,請參閱公告部落格文章與 Microsoft SQL Server 平台上的巨量資料選項。
本文提供如何透過會話和筆記本設定匯入和安裝Spark會話套件的指引。
內建工具
Scala Spark (Scala 2.12) 和 Hadoop 基底套件。
PySpark (Python 3.8)。 Pandas、Sklearn、Numpy 和其他數據處理和機器學習套件。
MRO 3.5.2 套件。 適用於 R Spark 工作負載的 Sparklyr 和 SparkR。
在運行時間將套件從 Maven 存放庫安裝到 Spark 叢集
Maven 套件可以使用 Spark 工作階段開始時的筆記本數據格設定,安裝到 Spark 叢集上。 在 Azure Data Studio 中啟動 Spark 工作階段之前,請執行下列程式代碼:
%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}
多個套件和其他 Spark 組態
在下列範例筆記本數據格中,會定義多個套件。
%%configure -f \
{
"conf": {
"spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
"spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
}
}
在運行時間於 PySpark 安裝 Python 套件
會話和作業層級套件管理保證連結庫一致性和隔離。 此設定是可在 Livy 會話上套用的 Spark 標準連結庫組態。 azdata spark 支持這些設定。 下列範例會顯示為 Azure Data Studio Notebooks 設定在附加至具有 PySpark 核心的叢集之後需要執行的單元格。
如果未設定 「spark.pyspark.virtualenv.enabled」 :“true” 組態,會話將會使用叢集預設 Python 和已安裝的連結庫。
具有 requirements.txt 的工作階段/作業設定
指定 HDFS 中 requirements.txt 檔案的路徑,以做為要安裝的套件參考。
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.8",
"spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
}
}
具有不同 Python 版本的工作階段/作業組態
在沒有需求檔案的情況下建立 conda virtualenv,並在 Spark 工作階段期間動態新增套件。
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.7"
}
}
函式庫安裝
執行 sc.install_packages ,以動態方式在會話中安裝連結庫。 連結庫會安裝到驅動程式中,以及所有執行程序節點。
sc.install_packages("numpy==1.11.0")
import numpy as np
您也可以使用陣列,在同一個命令中安裝多個連結庫。
sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb
從 HDFS 匯入.jar以供運行時間使用
透過 Azure Data Studio Notebook 數據格組態在運行時間匯入 jar。
%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}
後續步驟
如需 SQL Server 巨量數據叢集和相關案例的詳細資訊,請參閱 SQL Server 巨量數據叢集。