Partager via


Préparer des données avec data wrangling

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

La data wrangling dans la fabrique de données vous permet de créer des compositions (« mash-up ») Power Query interactives en mode natif dans ADF, puis de les exécuter à grande échelle à l’intérieur d’un pipeline ADF.

Créer une activité de Power Query

Il existe deux façons de créer un Power Query dans Azure Data Factory. L’une des façons consiste à cliquer sur l’icône plus et à sélectionner Power Query dans le volet ressources d’usine.

Capture d'écran qui affiche Power Query dans le volet des ressources de la fabrique.

L’autre méthode se trouve dans le volet d’activités du canevas du pipeline. Ouvrez l’accordéon Power Query et faites glisser l’activité Power Query sur le canevas.

Capture d’écran mettant en évidence l’option de data wrangling.

Élaborer une activité Power Query de préparation des données

Ajoutez un jeu de données Source pour votre Power Query mash-up. Vous pouvez choisir un jeu de données existant ou en créer un. Après avoir enregistré votre combinaison (« mash-up »), vous pouvez créer un pipeline, ajouter l’activité de data wrangling de Power Query à votre pipeline, puis sélectionner un jeu de données de récepteur pour indiquer à ADF où placer vos données. Vous pouvez choisir un ou plusieurs jeux de données sources, mais un seul récepteur est autorisé à ce stade. Choisir un jeu de données récepteur est facultatif, mais au moins un jeu de données source est requis.

Wrangling

Cliquez sur Create pour ouvrir l’éditeur de mashup Power Query Online.

Vous allez commencer par choisir une source de jeu de données pour l’éditeur de mashup.

Source de Power Query.

Une fois que vous avez terminé la création de votre Power Query, vous pouvez l’enregistrer, puis créer un pipeline. Vous devez ajouter le mashup en tant qu’activité à votre pipeline. C’est à ce moment que vous allez créer/sélectionner le jeu de données de récepteur pour placer vos données. Vous pouvez également définir les propriétés du jeu de données de récepteur en cliquant sur le deuxième bouton situé à droite de ce dernier. N’oubliez pas de remplacer la valeur « Option de partition » sous « Optimiser » par « Partition unique » si vous souhaitez obtenir un seul fichier de sortie.

Récepteur de Power Query.

Créez votre wrangling Power Query à l’aide d’une préparation des données sans code. Pour obtenir la liste des fonctions disponibles, consultez les fonctions de transformation. ADF convertit le script M en script de flux de données afin de pouvoir exécuter vos Power Query à grande échelle à l’aide de l’environnement Spark de flux de données Azure Data Factory.

Capture d’écran montrant le processus de création de votre data wrangling Power Query.

Exécution et surveillance d’une activité de préparation de données Power Query

Pour déboguer un pipeline d’activité Power Query, cliquez sur Déboguer dans le canevas du pipeline. Une fois que vous avez publié votre pipeline, la commande Déclencher maintenant effectue une exécution à la demande du dernier pipeline publié. Power Query pipelines peuvent être planifiés avec tous les déclencheurs de Azure Data Factory existants.

Capture d'écran qui montre comment ajouter une activité de traitement de données Power Query.

Accédez à l’onglet Monitor pour visualiser la sortie d’une exécution d’activité Power Query déclenchée.

Capture d’écran montrant la sortie de l’exécution d’une activité de data wrangling Power Query déclenchée.

Découvrez comment créer un flux de données de mappage.