Soumettre des travaux Spark à l’aide d’outils de ligne de commande

Article
03/21/2023

S’applique à : SQL Server 2019 (15.x)

Cet article fournit des conseils sur l’utilisation des outils de ligne de commande pour exécuter des travaux Spark sur Clusters Big Data SQL Server.

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Prérequis

Outils Big Data SQL Server 2019 configurés et connectés au cluster :
- azdata
- Application curl pour effectuer des appels d’API REST à Livy

Travaux Spark qui utilisent azdata ou Livy

Cet article fournit des exemples d’utilisation de modèles de ligne de commande pour soumettre des applications Spark à Clusters Big Data SQL Server.

Les commandes azdata bdc spark d’Azure Data CLI exposent toutes les fonctionnalités de Clusters Big Data SQL Server Spark sur la ligne de commande. Cet article se concentre sur la soumission des travaux. azdata bdc spark prend également en charge les modes interactifs pour Python, Scala, SQL et R avec la commande azdata bdc spark session.

Si vous avez besoin d’une intégration directe à une API REST, utilisez des appels Livy standard pour soumettre des travaux. Dans cet article, nous utilisons l’outil en ligne de commande curl dans les exemples Livy pour exécuter l’appel d’API REST. Pour obtenir un exemple détaillé expliquant comment interagir avec le point de terminaison Spark Livy à l’aide de code Python, consultez « Use Spark from the Livy endpoint » (Utilisation de Spark à partir du point de terminaison Livy) sur GitHub.

ETL simple qui utilise Clusters Big Data Spark

Cette application d’extraction, de transformation et de chargement (ETL) suit un modèle commun d’engineering données. Elle charge les données tabulaires à partir d’un chemin de zone d’atterrissage d’Apache Hadoop Distributed File System (HDFS). Elle utilise ensuite un format de table pour écrire dans un chemin de zone traité par HDFS.

Téléchargez le jeu de données de l’exemple d’application. Créez ensuite des applications PySpark à l’aide de PySpark, Spark Scala ou Spark SQL.

Dans les sections suivantes, vous trouverez des exemples d’exercices pour chaque solution. Sélectionnez l’onglet correspondant à votre plateforme. Vous exécuterez l’application à l’aide de azdata ou de curl.

Cet exemple utilise l’application PySpark suivante. Il est enregistré sous la forme d’un fichier Python nommé parquet_etl_sample.py sur l’ordinateur local.

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# Read clickstream_data from storage pool HDFS into a Spark data frame. Applies column renames.
df = spark.read.option("inferSchema", "true").csv('/securelake/landing/criteo/test.txt', sep='\t', 
    header=False).toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8",
    "feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4",
    "catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12",
    "catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19",
    "catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")

# Print the data frame inferred schema
df.printSchema()

tot_rows = df.count()
print("Number of rows:", tot_rows)

# Drop the managed table
spark.sql("DROP TABLE dl_clickstream")

# Write data frame to HDFS managed table by using optimized Delta Lake table format
df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

print("Sample ETL pipeline completed")

Copier l’application PySpark dans HDFS

Stockez l’application dans HDFS pour que le cluster puisse y accéder en vue de son exécution. Comme meilleure pratique, nous vous recommandons de normaliser et de régir les emplacements d’application au sein du cluster afin de simplifier l’administration.

Dans cet exemple de cas d’usage, toutes les applications du pipeline ETL sont stockées dans le chemin hdfs:/apps/ETL-Pipelines. L’exemple d’application est stocké dans hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py.

Exécutez la commande suivante pour charger le parquet_etl_sample.py à partir de la machine de développement ou intermédiaire locale vers le cluster HDFS.

azdata bdc hdfs cp --from-path parquet_etl_sample.py  --to-path "hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py"

Cet exemple utilise une application Spark écrite en Scala Spark.

import org.apache.spark.sql.SparkSession

object ParquetETLSample {
    def main(args: Array[String]) {
        val spark = SparkSession.builder.getOrCreate()
        
        val df = spark.read.
            option("inferSchema", "true").
            option("header", "false").
            option("delimiter", "\t").
            csv("/securelake/landing/criteo/test.txt").
            toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8","feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4","catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12","catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19","catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")
        
        val tot_rows = df.count()
        println(s"Number of rows: $tot_rows")

        spark.sql("DROP TABLE dl_clickstream")

        df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

        println("Sample ETL pipeline completed")
        
        spark.stop()
    }
}

Créer un bundle et copier l’application Spark dans HDFS

La documentation Spark recommande de créer un fichier JAR d’assembly (ou bundle) qui contient votre application et toutes les dépendances. Cette étape est obligatoire pour soumettre le bundle d’application au cluster en vue de son exécution.

La configuration d’un environnement de développement Scala Spark complet n’est pas couverte dans cet article. Pour plus d’informations, consultez la documentation Spark sur la création d’applications autonomes.

Cet exemple part du principe qu’un bundle JAR d’application nommé parquet-etl-sample.jar est compilé et disponible. Exécutez la commande suivante pour charger le bundle à partir de la machine de développement ou de mise en lots locale vers le cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.jar  --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar"

Cet exemple utilise Spark SQL pour la logique d’ingestion. Il utilise des tables et des vues pour fournir une approche ETL centrée sur SQL.

DROP VIEW IF EXISTS etl_clickstream;

CREATE TEMPORARY VIEW etl_clickstream
USING CSV
OPTIONS (path "/securelake/landing/criteo/test.txt", header "false", delimiter "\t", mode "FAILFAST");

DROP TABLE IF EXISTS dl_clickstream;

CREATE TABLE dl_clickstream (
    feat1 integer,
    feat2 integer,
    feat3 integer,
    feat4 integer,
    feat5 integer,
    feat6 integer,
    feat7 integer,
    feat8 integer,
    feat9 integer,
    feat10 integer,
    feat11 integer,
    feat12 integer,
    feat13 integer,
    catfeat1 string,
    catfeat2 string,
    catfeat3 string,
    catfeat4 string,
    catfeat5 string,
    catfeat6 string,
    catfeat7 string,
    catfeat8 string,
    catfeat9 string,
    catfeat10 string,
    catfeat11 string,
    catfeat12 string,
    catfeat13 string,
    catfeat14 string,
    catfeat15 string,
    catfeat16 string,
    catfeat17 string,
    catfeat18 string,
    catfeat19 string,
    catfeat20 string,
    catfeat21 string,
    catfeat22 string,
    catfeat23 string,
    catfeat24 string,
    catfeat25 string,
    catfeat26 string
) 
USING PARQUET
AS SELECT * FROM etl_clickstream;

Copier l’application Spark SQL dans HDFS

Exécutez la commande suivante pour charger le fichier parquet_etl_sample.py à partir de la machine de développement ou intermédiaire locale vers le cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.sql --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.sql"

Exécuter l’application Spark

Utilisez la commande suivante pour envoyer l’application à Clusters Big Data SQL Server Spark à des fins d’exécution.

La commande azdata exécute l’application à l’aide de paramètres couramment spécifiés. Pour connaître toutes les options de paramètre pour azdata bdc spark batch create, consultez azdata bdc spark.

Cette application requiert le paramètre de configuration spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation. La commande utilise donc l’option --config. Cette installation montre comment transmettre des configurations dans la session Spark.

Vous pouvez utiliser l’option --config pour spécifier plusieurs paramètres de configuration. Vous pouvez également les spécifier dans la session d’application en définissant la configuration dans l’objet SparkSession.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelinePySpark --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avertissement

Le paramètre « name » ou « n » pour le nom du lot doit être unique à chaque fois qu’un lot est créé.

La commande curl exécute l’application à l’aide de Livy. Remplacez les valeurs USER, PASSWORD et LIVY_ENDPOINT pour qu’elles correspondent à votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.py",
    "name": "MyETLPipelinePySpark",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avertissement

Le paramètre « name » doit être unique à chaque fois qu’un lot est créé.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar \
--class "ParquetETLSample" \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipeline --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avertissement

Le paramètre « name » ou « n » pour le nom du lot doit être unique à chaque fois qu’un lot est créé.

La commande curl exécute l’application à l’aide de Livy. Remplacez les valeurs USER, PASSWORD et LIVY_ENDPOINT pour qu’elles correspondent à votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet-etl-sample.jar",
    "class": "ParquetETLSample",
    "name": "MyETLPipeline",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avertissement

Le paramètre « name » pour le nom du lot doit être unique à chaque fois qu’un lot est créé.

Comme dans l’exemple PySpark, cette application requiert le paramètre de configuration spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation. La commande utilise donc l’option --config. Cette installation montre comment transmettre des configurations dans la session Spark.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.sql \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelineSQL --executor-count 2 --executor-cores 2 --executor-memory 1664m

Avertissement

Le paramètre « name » ou « n » pour le nom du lot doit être unique à chaque fois qu’un lot est créé.

La commande curl exécute l’application à l’aide de Livy. Remplacez les valeurs USER, PASSWORD et LIVY_ENDPOINT pour qu’elles correspondent à votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.sql",
    "name": "MyETLPipelineSQL",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Avertissement

Le paramètre « name » doit être unique à chaque fois qu’un lot est créé.

Superviser les travaux Spark

Les commandes azdata bdc spark batch contiennent des actions de gestion pour les travaux de traitement par lots Spark.

Pour répertorier tous les travaux en cours d’exécution, exécutez la commande suivante.

La commande azdata :
```
azdata bdc spark batch list -o table
```

Commande curl avec Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches

Pour obtenir des informations concernant un lot Spark avec l’ID donné, exécutez la commande suivante. batch id est retourné par spark batch create.

La commande azdata :

azdata bdc spark batch info --batch-id 0

Commande curl avec Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>

Pour obtenir des informations d’état concernant un lot Spark avec l’ID donné, exécutez la commande suivante.

La commande azdata :

azdata bdc spark batch state --batch-id 0

Commande curl avec Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/state

Pour obtenir des journaux d’activité pour un lot Spark avec l’ID donné, exécutez la commande suivante.

La commande azdata :

azdata bdc spark batch log --batch-id 0

Commande curl avec Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/log

Étapes suivantes

Pour plus d’informations sur le dépannage du code Spark, consultez Résoudre les problèmes d’un notebook PySpark.

Un exemple de code Spark complet est disponible dans Exemples Clusters Big Data SQL Server Spark sur GitHub.

Pour plus d’informations sur Clusters Big Data SQL Server et les scénarios associés, consultez Clusters Big Data SQL Server.

Partager via

Soumettre des travaux Spark à l’aide d’outils de ligne de commande

Prérequis

Travaux Spark qui utilisent azdata ou Livy

ETL simple qui utilise Clusters Big Data Spark

Copier l’application PySpark dans HDFS

Créer un bundle et copier l’application Spark dans HDFS

Copier l’application Spark SQL dans HDFS

Exécuter l’application Spark

Superviser les travaux Spark

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires