Partager via


Démarrage rapide : Déplacer et transformer des données avec des dataflows et des pipelines de données

Dans ce tutoriel, vous allez découvrir comment l’expérience de flux de données et de pipeline de données peut créer une solution Data Factory puissante et complète.

Conditions préalables

Pour commencer, vous devez disposer des conditions préalables suivantes :

Dataflows comparés aux pipelines

Dataflows Gen2 vous permet d'utiliser une interface sans code et plus de 300 transformations basées sur l'IA pour nettoyer, préparer et transformer facilement les données avec plus de flexibilité que n'importe quel autre outil. Les pipelines de données permettent d’obtenir des fonctionnalités d’orchestration de données prêtes à l’emploi pour composer des flux de travail de données flexibles répondant aux besoins de votre entreprise. Dans un pipeline, vous pouvez créer des regroupements logiques d’activités qui effectuent une tâche, ce qui peut inclure l’appel d’un dataflow pour nettoyer et préparer vos données. Bien que certaines fonctionnalités se chevauchent entre les deux, le choix d'utiliser l'un ou l'autre dans une situation spécifique dépend de la nécessité de bénéficier de la pleine richesse des pipelines ou de pouvoir se contenter des capacités plus simples mais plus limitées des flux de données. Pour plus d’informations, consultez le guide de décision sur le tissu

Transformer des données avec des dataflows

Suivez ces étapes pour configurer votre dataflow.

Étape 1 : Créer un dataflow

  1. Choisissez votre espace de travail activé par Fabric, puis sélectionnez Nouveau. Sélectionnez ensuite Dataflow Gen2.

    Capture d’écran montrant où commencer à créer un dataflow gen2.

  2. La fenêtre de l’éditeur de flux de données s’affiche. Sélectionnez la carte Importer à partir de SQL Server.

    Capture d’écran montrant la fenêtre de l’éditeur de flux de données.

Étape 2 : Obtenir des données

  1. Dans la boîte de dialogue Se connecter à la source de données présentée ensuite, entrez les détails pour vous connecter à votre base de données Azure SQL, puis sélectionnez Suivant. Pour cet exemple, vous utilisez l’exemple de base de données AdventureWorksLT configuré lorsque vous configurez la base de données Azure SQL dans les conditions préalables.

    Capture d’écran montrant comment se connecter à une base de données Azure SQL.

  2. Sélectionnez les données que vous souhaitez transformer, puis sélectionnez Créer. Pour ce démarrage rapide, sélectionnez SalesLT.Customer dans les exemples de données AdventureWorksLT fournis pour Azure SQL base de données, puis le bouton Sélectionner des tables associées pour inclure automatiquement deux autres tables associées.

    Capture d’écran montrant où choisir parmi les données disponibles.

Étape 3 : Transformer vos données

  1. S’il n’est pas sélectionné, sélectionnez le bouton Vue Diagramme dans la barre d’état en bas de la page, ou sélectionnez Vue Diagramme sous le menu Affichage en haut de l’éditeur Power Query. L’une ou l’autre de ces options peut activer la vue de diagramme.

    Capture d’écran montrant où sélectionner la vue diagramme.

  2. Cliquez avec le bouton droit sur votre requête SalesLT Customer, ou sélectionnez les points de suspension verticaux à droite de la requête, puis sélectionnez Fusionner les requêtes.

    Capture d’écran montrant où rechercher l’option Fusionner les requêtes.

  3. Configurez la fusion en sélectionnant la table SalesLTOrderHeader comme table appropriée pour la fusion, la colonne CustomerID de chaque table comme colonne de jointure et externe gauche comme type de jointure. Sélectionnez ensuite OK pour ajouter la requête de fusion.

    Capture d’écran de l’écran de configuration de fusion.

  4. Sélectionnez le bouton Ajouter une destination de données, qui ressemble à un symbole de base de données avec une flèche au-dessus de celle-ci, à partir de la nouvelle requête de fusion que vous avez créée. Sélectionnez ensuite base de données Azure SQL comme type de destination.

    Capture d’écran mettant en évidence le bouton Ajouter une destination de données sur la requête de fusion nouvellement créée.

  5. Fournissez les détails de votre connexion de base de données Azure SQL où la requête de fusion doit être publiée. Dans cet exemple, vous pouvez également utiliser la base de données AdventureWorksLT que nous avons utilisée comme source de données pour la destination.

    Capture d’écran montrant la boîte de dialogue Se connecter à la destination des données avec des exemples de valeurs renseignées.

  6. Choisissez une base de données pour stocker les données, puis fournissez un nom de table, puis sélectionnez suivant .

    Capture d’écran montrant la fenêtre Choisir la cible de destination.

  7. Vous pouvez conserver les paramètres par défaut dans la boîte de dialogue Choisir les paramètres de destination, puis sélectionner Enregistrer les paramètres sans apporter de modifications ici.

    Capture d’écran montrant la boîte de dialogue Choisir les paramètres de destination.

  8. Sélectionnez Publier de nouveau sur la page de l’éditeur de flux de données pour publier le flux de données.

    Capture d’écran mettant en évidence le bouton Publier dans l’éditeur dataflow gen2.

Déplacer des données avec des pipelines de données

Maintenant que vous avez créé un Dataflow Gen2, vous pouvez l’utiliser dans un pipeline. Dans cet exemple, vous copiez les données générées à partir du flux de données dans le format texte dans un compte stockage Blob Azure.

Étape 1 : Créer un pipeline de données

  1. Dans votre espace de travail, sélectionnez Nouveau, puis Pipeline de données.

    Capture d’écran montrant où démarrer un nouveau pipeline de données.

  2. Nommez votre pipeline, puis sélectionnez Créer.

    Capture d’écran montrant l’invite de création de pipeline avec un exemple de nom de pipeline.

Étape 2 : Configurer votre dataflow

  1. Ajoutez une nouvelle activité de flux de données à votre pipeline de données en sélectionnant dataflow sous l’onglet Activités .

    Capture d’écran montrant où sélectionner l’option Dataflow.

  2. Sélectionnez le flux de données sur le canevas du pipeline, puis l’onglet Paramètres de . Choisissez le flux de données que vous avez créé précédemment dans la liste déroulante.

    Capture d’écran montrant comment choisir le flux de données que vous avez créé.

  3. Sélectionnez Enregistrer, puis Exécuter pour exécuter le flux de données pour remplir initialement sa table de requêtes fusionnée que vous avez conçue à l’étape précédente.

    Capture d’écran montrant où sélectionner Exécuter.

Étape 3 : Utiliser l’Assistant Copie pour ajouter une activité de copie

  1. Sélectionnez Copier les données sur le canevas et ouvrez l’outil Assistant de copie pour commencer. Vous pouvez également sélectionner Utiliser l’assistant de copie dans la liste déroulante Copier les données sous l’onglet Activités du ruban.

    Capture d’écran montrant les deux façons d’accéder à l’Assistant copie.

  2. Choisissez votre source de données en sélectionnant un type de source de données. Dans ce tutoriel, vous utilisez Azure SQL Database utilisé précédemment lorsque vous avez créé le flux de données pour générer une nouvelle requête de fusion. Faites défiler vers le bas les exemples d’offres de données et sélectionnez l’onglet Azure, puis Azure SQL Database. Sélectionnez suivant pour continuer.

    Capture d’écran montrant où choisir une source de données.

  3. Créez une connexion à votre source de données en sélectionnant Créer une connexion. Renseignez les informations de connexion requises dans le panneau et entrez AdventureWorksLT pour la base de données, où nous avons généré la requête de fusion dans le flux de données. Sélectionnez ensuite suivant.

    Capture d’écran montrant où créer une connexion.

  4. Sélectionnez la table que vous avez générée à l’étape de flux de données précédemment, puis sélectionnez suivant.

    Capture d’écran montrant comment sélectionner parmi les tables disponibles.

  5. Pour votre destination, choisissez Azure Blob Storage, puis sélectionnez Suivant.

    Capture d’écran montrant la destination des données stockage Blob Azure.

  6. Créez une connexion à votre destination en sélectionnant Créer une connexion. Fournissez les détails de votre connexion, puis sélectionnez suivant .

    Capture d’écran montrant comment créer une connexion.

  7. Sélectionnez le chemin d’accès de votre dossier et fournissez un nom de fichier , puis sélectionnez suivant.

    Capture d’écran montrant comment sélectionner le chemin du dossier et le nom du fichier.

  8. Sélectionnez suivant pour accepter à nouveau le format de fichier par défaut, le délimiteur de colonne, le délimiteur de ligne et le type de compression, y compris éventuellement un en-tête.

    Capture d’écran montrant les options de configuration du fichier dans Stockage Blob Azure.

  9. Finalisez vos paramètres. Ensuite, passez en revue et sélectionnez Enregistrer + Exécuter pour terminer le processus.

    Capture d’écran montrant comment passer en revue les paramètres de copie des données.

Étape 5 : Concevoir votre pipeline de données et enregistrer pour exécuter et charger des données

  1. Pour exécuter l’activité de copie après l’activité de flux de données, faites glisser l’activité Réussite de l’activité de flux de données vers l’activité de copie. L’activité Copier s’exécute uniquement une fois que l’activité flux de données réussit.

    Capture d’écran montrant comment exécuter le flux de données après l’activité de copie.

  2. Sélectionnez Enregistrer pour enregistrer votre pipeline de données. Sélectionnez ensuite Exécuter pour exécuter votre pipeline de données et charger vos données.

    Capture d’écran montrant où sélectionner Enregistrer et Exécuter.

Planifier l’exécution du pipeline

Une fois que vous avez terminé le développement et le test de votre pipeline, vous pouvez planifier son exécution automatiquement.

  1. Sous l’onglet Accueil de la fenêtre de l’éditeur de pipeline, sélectionnez Planification.

    Capture d’écran du bouton Planifier dans le menu de l’onglet Accueil de l’éditeur de pipeline.

  2. Configurez la planification en fonction des besoins. L’exemple ci-dessous planifie l’exécution quotidienne du pipeline à 18h00 jusqu’à la fin de l’année.

    Capture d’écran montrant la configuration de planification d’un pipeline à exécuter tous les jours à 20h00 jusqu’à la fin de l’année.

Cet exemple vous montre comment créer et configurer un Dataflow Gen2 pour créer une requête de fusion et le stocker dans une base de données Azure SQL, puis copier des données de la base de données dans un fichier texte dans stockage Blob Azure. Vous avez appris à :

  • Créez un dataflow.
  • Transformez des données avec le dataflow.
  • Créez un pipeline de données à l’aide du flux de données.
  • Ordonner l’exécution des étapes dans le pipeline.
  • Copiez des données avec l’Assistant Copie.
  • Exécutez et planifiez votre pipeline de données.

Ensuite, avancez pour en savoir plus sur la supervision des exécutions de votre pipeline.