Gestion des bibliothèques Spark

2021-12-01

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Cet article fournit des conseils sur l’importation et l’installation de packages pour une session Spark via des configurations de session et de notebook.

Outils intégrés

Packages de base Scala Spark (Scala 2.12) et Hadoop.

PySpark (Python 3.8). Pandas, Sklearn, Numpy et d’autres packages de traitement des données et d’apprentissage automatique.

Packages MRO 3.5.2. Sparklyr et SparkR pour les charges de travail R Spark.

Installer des packages à partir d’un référentiel Maven sur le cluster Spark au moment de l’exécution

Les packages Maven peuvent être installés sur votre cluster Spark à l’aide de la configuration de cellule notebook au début de votre session Spark. Avant de démarrer une session Spark dans Azure Data Studio, exécutez le code suivant :

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Plusieurs packages et configurations Spark supplémentaires

Dans l’exemple de cellule de notebook suivant, plusieurs packages sont définis.

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Installer des packages Python sur PySpark au moment de l’exécution

La gestion des packages au niveau de la session et du travail garantit la cohérence et l’isolation des bibliothèques. La configuration est une configuration de bibliothèque standard Spark qui peut être appliquée aux sessions Livy. azdata spark prend en charge ces configurations. Les exemples ci-dessous sont présentés en tant que notebooks Azure Data Studio configurent les cellules qui doivent être exécutées après l’attachement à un cluster avec le noyau PySpark.

Si la configuration « spark.pyspark.virtualenv.enabled » : « true » n’est pas définie, la session utilise python par défaut du cluster et les bibliothèques installées.

Configuration de session/travail avec requirements.txt

Spécifiez le chemin d’accès à un fichier requirements.txt dans HDFS à utiliser comme référence pour les packages à installer.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Configuration de session/travail avec différentes versions de Python

Créez un virtualenv conda sans fichier de configuration requise et ajoutez dynamiquement des packages pendant la session Spark.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Installation de la bibliothèque

Exécutez le sc.install_packages pour installer dynamiquement des bibliothèques dans votre session. Les bibliothèques seront installées dans le pilote et sur tous les nœuds d’exécuteur.

sc.install_packages("numpy==1.11.0")
import numpy as np

Il est également possible d’installer plusieurs bibliothèques dans la même commande à l’aide d’un tableau.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Importer .jar à partir de HDFS pour une utilisation au moment de l’exécution

Importez un fichier jar au moment de l’exécution via la configuration de cellule de notebook Azure Data Studio.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Étapes suivantes

Pour plus d’informations sur le cluster Big Data SQL Server et les scénarios connexes, consultez clusters Big Data SQL Server.

Partager via