Démarrage rapide : Déplacer et transformer des données avec des flux de données et des pipelines de données

Dans ce tutoriel, vous découvrez comment le flux de données et l’expérience de pipeline de données peuvent créer une solution Data Factory puissante et complète.

Prérequis

Pour commencer, vous devez avoir les prérequis suivants :

Flux de données comparés aux pipelines

Les flux de données Gen2 vous permettent de tirer profit d'une interface low-code et de plus de 300 transformations basées sur les données et sur l'IA, ce qui vous permet de transformer les données plus facilement et avec davantage de flexibilité que n'importe quel autre outil. Les pipelines de données offrent de riches capacités d'orchestration de données prêtes à l'emploi pour composer des flux de données flexibles qui répondent aux besoins de votre entreprise. Dans un pipeline, vous pouvez créer des regroupements logiques d'activités qui effectuent une tâche, ce qui peut inclure l'appel d'un flux de données pour nettoyer et préparer vos données. Bien qu'il existe un chevauchement de fonctionnalités entre les deux, le choix de celle à utiliser pour un scénario spécifique varie selon que vous avez besoin de toute la richesse des pipelines ou pouvez utiliser les fonctionnalités plus simples, mais plus limitées des flux de données. Pour plus d'informations, consultez le guide de décision Fabric.

Transformer des données avec des flux de données

Suivez les étapes suivantes pour configurer votre flux de données.

Étape 1 : Créer un flux de données

  1. Choisissez votre espace de travail Fabric activé, puis sélectionnez Nouveau. Sélectionnez ensuite Flux de données Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. La fenêtre de l’éditeur de flux de données s’affiche. Sélectionnez la carte Importer à partir de SQL Server.

    Screenshot showing the dataflow editor window.

Étape 2 : obtention des données

  1. Dans la boîte de dialogue Se connecter à la source de données présentée ci-dessous, entrez les détails pour vous connecter à votre base de données Azure SQL, puis sélectionnez Suivant. Pour cet exemple, vous utilisez l’exemple de base de données AdventureWorksLT configuré lorsque vous configurez la base de données Azure SQL dans les conditions préalables.

    Screenshot showing how to connect to an Azure SQL database.

  2. Sélectionnez les données que vous souhaitez transformer, puis sélectionnez Créer. Pour ce démarrage rapide, sélectionnez SalesLT.Customer dans les exemples de données AdventureWorksLT fournis pour Azure SQL base de données, puis le bouton Sélectionner des tables associées pour inclure automatiquement deux autres tables associées.

    Screenshot showing where to choose from the available data.

Étape 3 : Transformer vos données

  1. S’il n’est pas sélectionné, sélectionnez le bouton Affichage diagramme le long de la barre d’état en bas de la page, ou sélectionnez Vue diagramme dans le menu Affichage en haut de l’éditeur de Power Query. L’une ou l’autre de ces options peut activer la vue de diagramme.

    Screenshot showing where to select diagram view.

  2. Cliquez avec le bouton droit sur votre requête SalesLT Customer, ou sélectionnez les points de suspension verticaux à droite de la requête, puis sélectionnez Fusionner les requêtes.

    Screenshot showing where to find the Merge queries option.

  3. Configurez la fusion en sélectionnant la table SalesOrderHeader comme table de droite pour la fusion, la colonne CustomerID de chaque table en tant que colonne de jointure et Externe gauche comme type de jointure. Sélectionnez ensuite OK afin d’ajouter la requête de fusion.

    Screenshot of the Merge configuration screen.

  4. Sélectionnez le bouton Ajouter une destination de données, qui ressemble à un symbole de base de données avec une flèche au-dessus, à partir de la nouvelle requête de fusion que vous venez de créer. Sélectionnez ensuite base de données Azure SQL comme type de destination.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Fournissez les détails de votre connexion de base de données Azure SQL où la requête de fusion doit être publiée. Dans cet exemple, vous pouvez également utiliser la base de données AdventureWorksLT que nous avons utilisée comme source de données pour la destination.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Choisissez une base de données pour stocker les données et fournissez un nom de table, puis sélectionnez Suivant.

    Screenshot showing the Choose destination target window.

  7. Vous pouvez conserver les paramètres par défaut dans la boîte de dialogue Choisir les paramètres de destination et sélectionner simplement Enregistrer les paramètres sans apporter de modifications ici.

    Screenshot showing the Choose destination settings dialog.

  8. Sélectionnez Publier de nouveau sur la page de l’éditeur de flux de données pour publier le flux de données.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Déplacer des données avec des pipelines de données

Maintenant que vous avez créé un Dataflow Gen2, vous pouvez l’utiliser dans un pipeline. Dans cet exemple, vous copiez les données générées à partir du flux de données dans un format texte dans un compte Stockage Blob Azure.

Étape 1 : Créer un pipeline de données

  1. Dans votre espace de travail, sélectionnez Nouveau, puis Pipeline de données.

    Screenshot showing where to start a new data pipeline.

  2. Nommez votre pipeline, puis sélectionnez Créer.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Étape 2 : Configurer votre flux de données

  1. Ajoutez une nouvelle activité de flux de données à votre pipeline de données en sélectionnant Flux de données sous l’onglet Activités .

    Screenshot showing where to select the Dataflow option.

  2. Sélectionnez le flux de données sur le canevas du pipeline, puis l’onglet Paramètres. Choisissez le flux de données que vous avez créé précédemment dans la liste déroulante.

    Screenshot showing how to choose the dataflow you created.

  3. Sélectionnez Enregistrer, puis Exécuter pour exécuter le flux de données afin de remplir initialement la table de requête fusionnée que vous avez conçue à l’étape précédente.

    Screenshot showing where to select Run.

Étape 3 : Utiliser le assistant de copie pour ajouter une activité de copie

  1. Sélectionnez Copier les données sur le canevas pour ouvrir l’outil Assistant Copie pour commencer. Vous pouvez également sélectionner Utiliser la copie assistant dans la liste déroulante Copier les données sous l’onglet Activités du ruban.

    Screenshot showing the two ways to access the copy assistant.

  2. Choisissez votre source de données en sélectionnant un type de source de données. Dans ce tutoriel, vous utilisez la base de données Azure SQL utilisée précédemment lorsque vous avez créé le flux de données pour générer une nouvelle requête de fusion. Faites défiler vers le bas sous les offres de données d’échantillon et sélectionnez l’onglet Azure, puis Base de données Azure SQL. Puis sélectionnez Suivant pour continuer.

    Screenshot showing where to choose a data source.

  3. Créez une connexion à votre source de données en sélectionnant Créer une connexion. Renseignez les informations de connexion requises dans le panneau, puis entrez AdventureWorksLT pour la base de données, où nous avons généré la requête de fusion dans le flux de données. Sélectionnez ensuite Suivant.

    Screenshot showing where to create a new connection.

  4. Sélectionnez la table que vous avez générée à l’étape de flux de données précédemment, puis sélectionnez Suivant.

    Screenshot showing how to select from available tables.

  5. Pour votre destination, choisissez Stockage Blob Azure, puis sélectionnez Suivant.

    Screenshot showing the Azure Blob Storage data destination.

  6. Créez une connexion à votre destination en sélectionnant Créer une connexion. Fournissez les informations nécessaires pour votre connexion, puis sélectionnez Suivant.

    Screenshot showing how to create a connection.

  7. Sélectionnez votre chemin d’accès au dossier et indiquez un nom de fichier, puis sélectionnez Suivant.

    Screenshot showing how to select folder path and file name.

  8. Sélectionnez à nouveau Suivant pour accepter le format de fichier par défaut, le délimiteur de colonne, le délimiteur de ligne et le type de compression, y compris éventuellement un en-tête.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalisez vos paramètres. Ensuite, passez en revue et sélectionnez Enregistrer + Exécution pour terminer le processus.

    Screenshot showing how to review copy data settings.

Étape 5 : Concevoir votre pipeline de données et enregistrer pour exécuter et charger des données

  1. Pour exécuter l’activité de copie après l’activité de flux de données, faites glisser l’activité Réussite de l’activité de flux de données vers l’activité de copie. L’activité de copie ne s’exécute qu’une fois l’activité de flux de données réussie.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Sélectionnez Enregistrer pour enregistrer votre pipeline de données. Sélectionnez ensuite Exécuter pour exécuter votre pipeline de données et charger vos données.

    Screenshot showing where to select Save and Run.

Planifier l’exécution du pipeline

Une fois que vous avez terminé le développement et le test de votre pipeline, vous pouvez le planifier pour qu’il s’exécute automatiquement.

  1. Sous l’onglet Accueil de la fenêtre de l’éditeur de pipeline, sélectionnez Planification.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Configurez la planification en fonction des besoins. L’exemple ci-dessous planifie l’exécution quotidienne du pipeline à 20h00 jusqu’à la fin de l’année.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Cet exemple vous montre comment créer et configurer un Dataflow Gen2 pour créer une requête de fusion et la stocker dans une base de données Azure SQL, puis copier des données de la base de données dans un fichier texte dans Stockage Blob Azure. Vous avez appris à :

  • Créer un flux de données.
  • Transformer des données avec le flux de données.
  • Créez un pipeline de données à l’aide du flux de données.
  • Ordonner l’exécution des étapes dans le pipeline.
  • Copier des données avec l’Assistant Copie.
  • Exécutez et planifiez votre pipeline de données.

Ensuite, avancez pour en savoir plus sur la surveillance des exécutions de votre pipeline.