Spark 連結庫管理

2021-12-01

適用於：SQL Server 2019 (15.x)

這很重要

Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將於 2025 年 2 月 28 日結束。平台上將完全支援含軟體保證 SQL Server 2019 的所有現有使用者，而且軟體將會持續透過 SQL Server 累積更新來維護，直到該時間為止。如需詳細資訊，請參閱公告部落格文章與 Microsoft SQL Server 平台上的巨量資料選項。

本文提供如何透過會話和筆記本設定匯入和安裝Spark會話套件的指引。

內建工具

Scala Spark （Scala 2.12）和 Hadoop 基底套件。

PySpark （Python 3.8）。 Pandas、Sklearn、Numpy 和其他數據處理和機器學習套件。

MRO 3.5.2 套件。適用於 R Spark 工作負載的 Sparklyr 和 SparkR。

在運行時間將套件從 Maven 存放庫安裝到 Spark 叢集

Maven 套件可以使用 Spark 工作階段開始時的筆記本數據格設定，安裝到 Spark 叢集上。在 Azure Data Studio 中啟動 Spark 工作階段之前，請執行下列程式代碼：

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

多個套件和其他 Spark 組態

在下列範例筆記本數據格中，會定義多個套件。

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

在運行時間於 PySpark 安裝 Python 套件

會話和作業層級套件管理保證連結庫一致性和隔離。此設定是可在 Livy 會話上套用的 Spark 標準連結庫組態。 azdata spark 支持這些設定。下列範例會顯示為 Azure Data Studio Notebooks 設定在附加至具有 PySpark 核心的叢集之後需要執行的單元格。

如果未設定 「spark.pyspark.virtualenv.enabled」：“true” 組態，會話將會使用叢集預設 Python 和已安裝的連結庫。

具有 requirements.txt 的工作階段/作業設定

指定 HDFS 中 requirements.txt 檔案的路徑，以做為要安裝的套件參考。

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

具有不同 Python 版本的工作階段/作業組態

在沒有需求檔案的情況下建立 conda virtualenv，並在 Spark 工作階段期間動態新增套件。

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

函式庫安裝

執行 sc.install_packages ，以動態方式在會話中安裝連結庫。連結庫會安裝到驅動程式中，以及所有執行程序節點。

sc.install_packages("numpy==1.11.0")
import numpy as np

您也可以使用陣列，在同一個命令中安裝多個連結庫。

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

從 HDFS 匯入.jar以供運行時間使用

透過 Azure Data Studio Notebook 數據格組態在運行時間匯入 jar。

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

後續步驟

如需 SQL Server 巨量數據叢集和相關案例的詳細資訊，請參閱 SQL Server 巨量數據叢集。

共用方式為