Spark-Bibliotheksverwaltung

Gilt für: SQL Server 2019 (15.x)

Wichtig

Das Microsoft SQL Server 2019-Big Data-Cluster-Add-On wird eingestellt. Der Support für SQL Server 2019-Big Data-Clusters endet am 28. Februar 2025. Alle vorhandenen Benutzer*innen von SQL Server 2019 mit Software Assurance werden auf der Plattform vollständig unterstützt, und die Software wird bis zu diesem Zeitpunkt weiterhin über kumulative SQL Server-Updates verwaltet. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und unter Big Data-Optionen auf der Microsoft SQL Server-Plattform.

Dieser Artikel enthält einen Leitfaden zum Importieren und Installieren von Paketen für eine Spark-Sitzung über Sitzungs- und Notebook-Konfigurationen.

Integrierte Tools

Basispakete für Scala Spark (Scala 2.12) und Hadoop.

PySpark (Python 3.8). Pandas, Sklearn, Numpy und andere Pakete für Datenverarbeitung und maschinelles Lernen.

MRO 3.5.2-Pakete. Sparklyr und SparkR für R Spark-Workloads.

Installieren von Paketen aus einem Maven-Repository im Spark-Cluster zur Laufzeit

Maven-Pakete können mithilfe einer Notebook-Zellenkonfiguration zu Beginn einer Spark-Sitzung im Spark-Cluster installiert werden. Führen Sie hierzu vor Beginn einer Spark-Sitzung in Azure Data Studio folgenden Code aus:

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Mehrere Pakete und zusätzliche Spark-Konfigurationen

In der folgenden Notebookbeispielzelle sind mehrere Pakete definiert:

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Installieren von Python-Paketen mit PySpark zur Laufzeit

Die Paketverwaltung auf Sitzungs- und Auftragsebene garantiert Konsistenz und Isolierung der Bibliothek. Die Konfiguration ist eine Spark-Standardbibliothekskonfiguration, die auf Livy-Sitzungen angewendet werden kann. azdata spark unterstützt diese Konfigurationen. Die folgenden Beispiele sind als konfigurierte Zellen in Azure Data Studio-Notebooks dargestellt, die nach dem Anfügen an einen Cluster mit dem PySpark-Kernel ausgeführt werden müssen.

Wenn die Konfiguration "spark.pyspark.virtualenv.enabled" : "true" nicht festgelegt ist, verwendet die Sitzung den Python-Standard des Clusters und die installierten Bibliotheken.

Sitzungs-/Auftragskonfiguration mithilfe von „requirements.txt“

Geben Sie den Pfad zu einer „requirements.txt“-Datei in HDFS zur Verwendung als Referenz für zu installierende Pakete an.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Sitzungs-/Auftragskonfiguration mit unterschiedlichen Python-Versionen

Erstellen Sie eine virtuelle Umgebung wie Conda ohne „requirements.txt“-Datei, und fügen Sie Pakete dynamisch während der Spark-Sitzung hinzu.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Bibliotheksinstallation

Führen Sie den Befehl sc.install_packages aus, um Bibliotheken dynamisch in Ihrer Sitzung zu installieren. Die Bibliotheken werden in den Treiber und auf allen Executorknoten installiert.

sc.install_packages("numpy==1.11.0")
import numpy as np

Es ist auch möglich, mehrere Bibliotheken mit demselben Befehl über ein Array zu installieren.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Importieren einer JAR-Datei aus HDFS zur Verwendung zur Laufzeit

Importieren Sie eine JAR-Datei zur Laufzeit über eine Azure Data Studio-Notebook-Zellenkonfiguration.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Nächste Schritte

Weitere Informationen zu Big Data-Clustern für SQL Server und zugehörige Szenarios finden Sie unter Big Data-Cluster für SQL Server.