Partage via


Démarrage rapide : Transformer des données à l’aide d’une définition de travail Apache Spark

Dans ce guide de démarrage rapide, vous vous servez d’Azure Synapse Analytics pour créer un pipeline au moyen d’une définition de travail Apache Spark.

Prérequis

Après avoir créé votre espace de travail Azure Synapse, vous pouvez ouvrir Synapse Studio de deux manières :

  • Ouvrez votre espace de travail Synapse dans le Portail Azure. Sélectionnez Ouvrir sur la carte Ouvrir Synapse Studio dans la section Démarrage.
  • Ouvrez Azure Synapse Analytics et connectez-vous à votre espace de travail.

Dans ce guide de démarrage rapide, nous utilisons l’espace de travail nommé « sampletest » comme exemple. Vous accéderez automatiquement à la page d’accueil de Synapse Studio.

page d’accueil de Synapse Studio

Créer un pipeline avec une définition de travail Apache Spark

Un pipeline contient le flux logique pour l’exécution d’un ensemble d’activités. Dans cette section, vous allez créer un pipeline qui contient une activité de définition de travail Apache Spark.

  1. Accédez à l’onglet Intégrer. Sélectionnez l’icône plus (+) située en regard de l’en-tête Pipelines, puis sélectionnez Pipeline.

    Créer un pipeline

  2. Dans la page des paramètres Propriétés du pipeline, entrez demo en guise de Nom.

  3. Sous Synapse, dans le volet Activités, faites glisser la Définition de travail Spark jusqu’au canevas du pipeline.

    faire glisser la définition de travail Spark

Définir le canevas de définition de travail Apache Spark

Après avoir créé votre définition de travail Apache Spark, vous accédez automatiquement au canevas de définition de travail Spark.

Paramètres généraux :

  1. Sélectionnez le module de définition de travail Spark sur le canevas.

  2. Sous l’onglet Général, entrez sample en guise de Nom.

  3. (Facultatif) Vous pouvez également indiquer une description.

  4. Délai : durée maximale pendant laquelle une activité peut s’exécuter. La valeur par défaut est de sept jours, ce qui correspond également à la durée maximale autorisée. Le format est J.HH:MM:SS.

  5. Réessayer : nombre maximal de nouvelles tentatives.

  6. Intervalle avant nouvelle tentative : nombre de secondes entre les nouvelles tentatives.

  7. Sortie sécurisée : quand cette option est cochée, la sortie de l’activité n’est pas capturée dans la journalisation.

  8. Entrée sécurisée : quand cette option est cochée, l’entrée de l’activité n’est pas capturée dans la journalisation.

    définition de travail Spark – général

Onglet Paramètres

Dans ce panneau, vous pouvez référencer la définition de travail Spark à exécuter.

  • Développez la liste des définitions de travail Spark, vous pouvez choisir une définition de travail Apache Spark existante. Vous pouvez également créer une définition de travail Apache Spark en sélectionnant le bouton Nouveau pour référencer la définition de travail Spark à exécuter.

  • (Facultatif) Renseignez les informations pour la définition de travail Apache Spark. Si les paramètres suivants sont vides, les paramètres de la définition de travail Spark lui-même seront utilisés pour s’exécuter ; si les paramètres suivants ne sont pas vides, ces paramètres remplacent les paramètres de la définition de travail spark elle-même.

    Propriété Description
    Fichier de définition principal Fichier principal utilisé pour le travail. Sélectionnez un fichier PY/JAR/ZIP à partir de votre stockage. Vous pouvez sélectionner Charger le fichier pour charger le fichier sur un compte de stockage.
    Exemple : abfss://…/path/to/wordcount.jar
    Références des sous-dossiers En analysant les sous-dossiers à partir du dossier racine du fichier de définition principal, ces fichiers sont ajoutés en tant que fichiers de référence. Les dossiers nommés « jars », « pyFiles », « files » ou « archives » sont analysés. Le nom des dossiers respecte la casse.
    Main class name Identificateur complet ou classe principale qui se trouve dans le fichier de définition principal.
    Exemple : WordCount
    Arguments de ligne de commande Vous pouvez ajouter des arguments de ligne de commande en cliquant sur le bouton Nouveau. Notez que l’ajout d’arguments de ligne de commande remplace ceux définis par la définition de travail Spark.
    Exemple : abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Pool Apache Spark Vous pouvez sélectionner un pool Apache Spark dans la liste.
    Informations de référence sur le code Python Fichiers de code Python supplémentaires utilisés pour référence dans le fichier de définition principal.
    Il prend en charge le passage de fichiers (.py, .py3, .zip) à la propriété « pyFiles ». Il remplace la propriété « pyFiles » définie dans la définition de travail Spark.
    Fichiers de référence Fichiers supplémentaires utilisés en guise de référence dans le fichier de définition principal.
    Allouer dynamiquement des exécuteurs Ce paramètre correspond à la propriété d’allocation dynamique dans la configuration Spark pour allouer des exécuteurs d’application Spark.
    Nombre minimal d’exécuteurs Nombre minimal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
    Nombre maximal d’exécuteurs Nombre maximal d'exécuteurs à allouer dans le pool Spark spécifié pour le travail.
    Taille du pilote Nombre de cœurs et mémoire à utiliser pour le pilote dans le pool Apache Spark spécifié du travail.
    Configuration Spark Spécifiez les valeurs des propriétés de configuration de Spark listées dans la rubrique : Configuration Spark - Propriétés de l’application. Les utilisateurs peuvent utiliser la configuration par défaut et la configuration personnalisée.

    paramètres du pipeline de définition de travail Spark

  • Vous pouvez ajouter du contenu dynamique en cliquant sur le bouton Ajouter du contenu dynamique ou en appuyant sur la touche de raccourci Alt+Maj+D. Dans la page Ajouter du contenu dynamique, vous pouvez utiliser n’importe quelle combinaison d’expressions, de fonctions et de variables système à ajouter au contenu dynamique.

    ajouter du contenu dynamique

Onglet Propriétés de l’utilisateur

Dans ce panneau, vous pouvez ajouter des propriétés pour une activité de définition de travail Apache Spark.

propriétés de l’utilisateur

Étapes suivantes

Lisez les articles suivant pour en savoir plus sur la prise en charge d’Azure Synapse Analytics :