Gestion de la bibliothèque Spark

Article
03/21/2023

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Cet article fournit des conseils sur l’importation et l’installation de packages pour une session Spark par le biais de configurations de sessions et de notebooks.

Outils intégrés

Les packages Scala Spark (Scala 2.12) et Hadoop de base.

PySpark (Python 3.8). Pandas, Sklearn, Numpy et autres traitements de données et packages du Machine Learning.

Packages MRO 3.5.2. Sparklyr et SparkR pour les charges de travail de R Spark.

Installer des packages à partir d’un référentiel Maven sur le cluster Spark au moment de l’exécution

Les packages Maven peuvent être installés sur votre cluster Spark en configurant des cellules de notebook au début de votre session Spark. Avant de démarrer une session Spark dans Azure Data Studio, exécutez le code suivant :

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Plusieurs packages et configurations Spark supplémentaires

Dans l’exemple de cellule de Notebook suivant, plusieurs packages sont définis.

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Installer des packages Python sur PySpark au moment du runtime

La gestion des packages au niveau de la session et du travail garantit la cohérence et l’isolation de la bibliothèque. La configuration est une configuration de la bibliothèque standard Spark qui peut être appliquée sur les sessions Livy. azdata Spark prend en charge ces configurations. Les exemples ci-dessous sont présentés comme des cellules de configuration Notebooks Azure Data Studio qui doivent être exécutées après l’attachement à un cluster avec le noyau PySpark.

Si la configuration «spark.pyspark.virtualenv.enabled » : « true » n’est pas définie, la session utilise le cluster python par défaut et les bibliothèques installées.

Configuration de session/travail avec requirements.txt

Spécifiez le chemin d’un fichier requirements.txt dans HDFS à utiliser comme référence pour les packages à installer.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Configuration de session/travail avec différentes versions de Python

Créez un environnement virtuel Conda sans fichier requirements et ajoutez dynamiquement des packages pendant la session Spark.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Installation d’une bibliothèque

Exécutez le sc.install_packages pour installer des bibliothèques de manière dynamique dans votre session. Les bibliothèques sont installées dans le pilote et sur tous les nœuds de l’exécuteur.

sc.install_packages("numpy==1.11.0")
import numpy as np

Il est également possible d’installer plusieurs bibliothèques dans la même commande à l’aide d’un tableau.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Importer un fichier .jar de HDFS à utiliser au moment de l’exécution

Importez le fichier jar au moment de l’exécution par le biais d’une configuration de cellule de notebook Azure Data Studio.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Étapes suivantes

Pour plus d’informations sur le cluster Big Data SQL Server et les scénarios associés, consultez Clusters Big Data SQL Server.

Partager via