Exercice - Utiliser le wrangling data dans Azure Data Factory

Effectué

La fonctionnalité Power Query dans Azure Data Factory vous permet d’utiliser les données et de faire du data wrangling. C’est un objet qui peut être ajouté au concepteur du canevas comme activité dans un pipeline Azure Data Factory pour préparer les données sans code. Il permet aux personnes qui ne sont pas familiarisées avec les technologies de préparation de données classiques comme Spark ou SQL Server et avec des langages tels que Python et T-SQL de préparer les données à l’échelle du cloud de manière itérative.

La fonctionnalité Power Query utilise une interface de type grille pour la préparation des données de base. Cette interface, qui rappelle celle d’Excel, est également appelée éditeur de mashup en ligne. L’éditeur permet aussi aux utilisateurs plus avancés d’effectuer une préparation de données plus complexe à l’aide de formules. Vous devez d’abord créer un service lié à une source de données avant de pouvoir accéder aux données

Online Mashup Editor

Les formules fonctionnent avec Power Query Online, ce qui permet aux utilisateurs de fabrique de données d’utiliser les fonctions Power Query M. Power Query traduit ensuite le langage M généré par l’éditeur de mashup en ligne en code Spark pour l’exécution à l’échelle du cloud.

Cette fonctionnalité permet aux ingénieurs et aux analystes de données d’explorer et de préparer les jeux de données de manière interactive. En outre, ils peuvent travailler de manière interactive avec le langage M et prévisualiser le résultat avant de le voir dans le contexte d’un pipeline plus vaste.

Pour ajouter une activité Power Query dans Azure Data Factory, cliquez sur l’icône plus, puis sélectionnez Power Query dans le volet ressources de la fabrique.

Create a Power Query activity

Ajoutez un jeu de données source pour votre flux de wrangling data, puis sélectionnez un jeu de données de récepteur. Les sources de données suivantes sont prises en charge.

Connecteur Format de données Type d'authentification
Stockage Blob Azure CSV, Parquet Clé du compte
Azure Data Lake Storage Gen1 CSV Principal de service
Azure Data Lake Storage Gen2 CSV, Parquet Clé de compte, Principal de service
Azure SQL Database Authentification SQL
Azure Synapse Analytics Authentification SQL

Après avoir sélectionné une source, cliquez sur Créer.

Adding source datasets to wrangling data flow

L’éditeur de mashup en ligne s’ouvre.

Navigating the wrangling data flow

Elle se compose des éléments suivants :

  1. Liste des jeux de données

    Elle présente les jeux de données qui ont été définis comme source pour le data wrangling.

  2. Barre d’outils des fonctions de wrangling

    La barre d’outils met à la disposition de l’utilisateur une variété de fonctions de data wrangling pour manipuler les données, notamment :

    • Gestion des colonnes
    • Transformation de tables
    • Réduction de lignes
    • Ajout de colonnes.
    • Combinaison de tables

    Chaque élément dépend du contexte et contient des sous-fonctions spécifiques.

  3. En-têtes de colonne

    Quand vous cliquez avec le bouton droit, vous pouvez non seulement renommer les colonnes, mais également accéder à des éléments permettant de gérer les colonnes, en fonction du contexte.

  4. Paramètres.

    Cette option vous permet d’ajouter ou de modifier des sources de données et des récepteurs de données et de modifier le paramétrage de la tâche de data wrangling.

  5. Fenêtre des étapes

    Cette fenêtre affiche les étapes qui ont été appliquées à la sortie du wrangling. Dans cette capture, l’étape nommée « Source » a été appliquée à la sortie de wrangling nommée « UserQuery ».

  6. Liste de sortie Power Query.

    Liste les sorties de data wrangling qui ont été définies.

  7. Bouton Publier

    Vous permet de publier le travail qui a été créé.

Une tâche Power Query peut être ajoutée au concepteur de canevas de la même façon qu’une tâche d’activité Copy ou une tâche Flux de données de mappage et peut être gérée et supervisée de la même façon.

completing the wrangling data flow