Comment créer une définition de travail Apache Spark dans Fabric

Dans ce tutoriel, découvrez comment créer une définition de travail Spark dans Microsoft Fabric.

Important

Microsoft Fabric est en préversion.

Prérequis

Pour commencer, vous avez besoin des prérequis suivants :

Conseil

Pour exécuter l’élément de définition de travail Spark, main fichier de définition et le contexte lakehouse par défaut sont requis. Si vous n’avez pas de lakehouse, vous pouvez en créer un en suivant les étapes décrites dans Créer un lakehouse.

Créer une définition de travail Spark

Le processus de création de définition de tâche Spark est rapide et simple et il existe plusieurs façons de commencer.

Options permettant de créer une définition de travail Spark

Vous pouvez commencer le processus de création de plusieurs façons :

  • Page d’accueil de l’ingénierie des données : vous pouvez facilement créer une définition de travail Spark via la définition de travail Spark carte sous la section Nouveau de la page d’accueil.

Capture d’écran montrant où sélectionner la définition de travail Spark carte.

  • Affichage espace de travail : vous pouvez également créer une définition de travail Spark via l’affichage Espace de travail lorsque vous êtes sur l’expérience Ingénieurs de données à l’aide de la liste déroulante Nouveau.

Capture d’écran montrant où sélectionner la définition de travail Spark dans le menu Nouveau.

  • Créer un hub : un autre point d’entrée pour créer une définition de travail Spark se trouve dans la page Créer un hub sous Ingénieurs de données.

Capture d’écran montrant où sélectionner la définition de travail Spark dans créer un hub.

Un nom est requis pour créer une définition de travail Spark. Le nom doit être unique dans l’espace de travail actuel. La définition de travail Spark nouvellement créée sera créée sous l’espace de travail actuel dans lequel vous vous trouvez.

Créer une définition de travail Spark pour PySpark (Python)

Pour créer une définition de travail Spark pour PySpark, procédez comme suit :

  1. Créez une définition de travail Spark.

  2. Sélectionnez PySpark (Python) dans la liste déroulante Langue .

  3. Chargez le fichier de définition main en tant que fichier .py. Le fichier de définition main est le fichier qui contient la logique d’application de ce travail. Le fichier de définition principal est obligatoire pour exécuter un travail Spark. Pour chaque définition de travail Spark, vous ne pouvez charger qu’un seul fichier de définition main.

    Outre le chargement à partir du bureau local, vous pouvez également charger à partir de Azure Data Lake Storage Gen2 existants en fournissant le chemin abfss complet du fichier. Par exemple, abfss://your-storage-account-name.dfs.core.windows.net/your-file chemin d’accès.

  4. Chargez des fichiers de référence en tant que fichier .py . les fichiers de référence sont les modules Python importés par le fichier de définition main. Comme pour charger main fichier de définition, vous pouvez également charger à partir de Azure Data Lake Storage Gen2 existants en fournissant le chemin abfss complet du fichier. Plusieurs fichiers de référence sont pris en charge.

Conseil

Si le chemin ADLS-gen2 est utilisé, pour vous assurer que le fichier est accessible, le compte d’utilisateur utilisé pour exécuter le travail doit être affecté avec l’autorisation appropriée au compte de stockage. Il existe deux façons suggérées d’effectuer cette opération :

  • Affectez le compte d’utilisateur en tant que rôle Contributeur au compte de stockage.
  • Accorder l’autorisation lecture et exécution au compte d’utilisateur sur le fichier via Azure Data Lake Storage Gen2 Access Control List (ACL)

Pour l’exécution manuelle, le compte de l’utilisateur de connexion actuel est utilisé pour exécuter le travail

  1. Fournissez des arguments de ligne de commande au travail si nécessaire. utilisez l’espace comme séparateur pour séparer les arguments.

  2. Ajoutez la référence lakehouse au travail. Vous devez avoir au moins une référence lakehouse ajoutée au travail. Ce lakehouse est le contexte lakehouse par défaut pour le travail. Plusieurs références lakehouse sont prises en charge. Pour le Lakehouse autre que celui par défaut, vous trouverez son nom et l’URL complète de OneLake dans la page Paramètres Spark.

    Capture d’écran montrant un exemple d’écran de fichier de définition main rempli.

Dans cet exemple, nous avons effectué les opérations suivantes :

  • Création d’une définition de travail Spark nommée CSVToDelta pour PySpark
  • Chargement du fichier createTablefromCSV.py en tant que fichier de définition de main
  • Ajout des références lakehouse LH001 et LH002 au travail
  • Faire de LH001 le contexte lakehouse par défaut

Créer une définition de travail Spark pour Scala/Java

Pour créer une définition de travail Spark pour Scala/Java, procédez comme suit :

  1. Sélectionnez Spark(Scala/Java) dans la liste déroulante Langue .

  2. Chargez le fichier de définition main en tant que fichier .jar. Le fichier de définition main est le fichier qui contient la logique d’application de ce travail. Un fichier de définition main est obligatoire pour exécuter un travail Spark. Indiquez le nom de la classe Main.

  3. Chargez des fichiers de référence en tant que fichier .jar. les fichiers de référence sont les fichiers référencés/importés par le fichier de définition main.

  4. Fournit des arguments de ligne de commande au travail si nécessaire.

  5. Ajoutez la référence lakehouse au travail. Vous devez avoir au moins une référence lakehouse ajoutée au travail. Ce lakehouse est le contexte lakehouse par défaut pour le travail.

Créer une définition de travail Spark pour R

Pour créer une définition de travail Spark pour SparkR(R), procédez comme suit :

  1. Sélectionnez SparkR(R) dans la liste déroulante Langue .

  2. Chargez le fichier de définition main en tant que . Fichier R. Le fichier de définition main est le fichier qui contient la logique d’application de ce travail. Un fichier de définition main est obligatoire pour exécuter un travail Spark.

  3. Chargez des fichiers de référence en tant que . Fichier R. les fichiers de référence sont les fichiers référencés/importés par le fichier de définition main.

  4. Fournit des arguments de ligne de commande au travail si nécessaire.

  5. Ajoutez la référence lakehouse au travail. Vous devez avoir au moins une référence lakehouse ajoutée au travail. Ce lakehouse est le contexte lakehouse par défaut pour le travail.

Notes

La définition du travail Spark sera créée sous l’espace de travail actuel dans lequel vous vous trouvez.

Options pour personnaliser la définition de travail Spark

Il existe quelques options pour personnaliser davantage l’exécution de la définition de travail Spark

  • Calcul Spark : dans l’onglet Calcul Spark , vous pouvez voir la version runtime qui est la version de Spark qui sera utilisée pour exécuter le travail. Vous pouvez également voir les paramètres de configuration Spark qui seront utilisés pour exécuter le travail. Vous pouvez personnaliser les paramètres de configuration Spark en cliquant sur le bouton Ajouter .

Capture d’écran montrant où modifier la configuration Spark.

  • Optimisation : dans l’onglet Optimisation , vous pouvez activer et configurer la stratégie de nouvelle tentative pour le travail. Lorsqu’il est activé, le travail est retenté en cas d’échec. Vous pouvez également définir le nombre maximal de nouvelles tentatives et l’intervalle entre les nouvelles tentatives. Pour chaque nouvelle tentative, le travail est redémarré. Vérifiez que le travail est idempotent.

Capture d’écran montrant où configurer la stratégie de nouvelle tentative.

Étapes suivantes