Démarrage rapide : Déplacer et transformer des données avec des flux de données et des pipelines de données
Dans ce tutoriel, vous découvrez comment le flux de données et l’expérience de pipeline de données peuvent créer une solution Data Factory puissante et complète.
Prérequis
Pour commencer, vous devez avoir les prérequis suivants :
- Un compte locataire avec un abonnement actif. Créez un compte gratuit.
- Vérifiez que vous disposez d’un espace de travail activé pour Microsoft Fabric : Créez un espace de travail qui n’est pas l’espace de travail par défaut Mon espace de travail.
- Une base de données Azure SQL avec des données de table.
- Compte Stockage Blob.
Flux de données comparés aux pipelines
Les flux de données Gen2 vous permettent de tirer profit d'une interface low-code et de plus de 300 transformations basées sur les données et sur l'IA, ce qui vous permet de transformer les données plus facilement et avec davantage de flexibilité que n'importe quel autre outil. Les pipelines de données offrent de riches capacités d'orchestration de données prêtes à l'emploi pour composer des flux de données flexibles qui répondent aux besoins de votre entreprise. Dans un pipeline, vous pouvez créer des regroupements logiques d'activités qui effectuent une tâche, ce qui peut inclure l'appel d'un flux de données pour nettoyer et préparer vos données. Bien qu'il existe un chevauchement de fonctionnalités entre les deux, le choix de celle à utiliser pour un scénario spécifique varie selon que vous avez besoin de toute la richesse des pipelines ou pouvez utiliser les fonctionnalités plus simples, mais plus limitées des flux de données. Pour plus d'informations, consultez le guide de décision Fabric.
Transformer des données avec des flux de données
Suivez les étapes suivantes pour configurer votre flux de données.
Étape 1 : Créer un flux de données
Choisissez votre espace de travail Fabric activé, puis sélectionnez Nouveau. Sélectionnez ensuite Flux de données Gen2.
La fenêtre de l’éditeur de flux de données s’affiche. Sélectionnez la carte Importer à partir de SQL Server.
Étape 2 : obtention des données
Dans la boîte de dialogue Se connecter à la source de données présentée ci-dessous, entrez les détails pour vous connecter à votre base de données Azure SQL, puis sélectionnez Suivant. Pour cet exemple, vous utilisez l’exemple de base de données AdventureWorksLT configuré lorsque vous configurez la base de données Azure SQL dans les conditions préalables.
Sélectionnez les données que vous souhaitez transformer, puis sélectionnez Créer. Pour ce démarrage rapide, sélectionnez SalesLT.Customer dans les exemples de données AdventureWorksLT fournis pour Azure SQL base de données, puis le bouton Sélectionner des tables associées pour inclure automatiquement deux autres tables associées.
Étape 3 : Transformer vos données
S’il n’est pas sélectionné, sélectionnez le bouton Affichage diagramme le long de la barre d’état en bas de la page, ou sélectionnez Vue diagramme dans le menu Affichage en haut de l’éditeur de Power Query. L’une ou l’autre de ces options peut activer la vue de diagramme.
Cliquez avec le bouton droit sur votre requête SalesLT Customer, ou sélectionnez les points de suspension verticaux à droite de la requête, puis sélectionnez Fusionner les requêtes.
Configurez la fusion en sélectionnant la table SalesOrderHeader comme table de droite pour la fusion, la colonne CustomerID de chaque table en tant que colonne de jointure et Externe gauche comme type de jointure. Sélectionnez ensuite OK afin d’ajouter la requête de fusion.
Sélectionnez le bouton Ajouter une destination de données, qui ressemble à un symbole de base de données avec une flèche au-dessus, à partir de la nouvelle requête de fusion que vous venez de créer. Sélectionnez ensuite base de données Azure SQL comme type de destination.
Fournissez les détails de votre connexion de base de données Azure SQL où la requête de fusion doit être publiée. Dans cet exemple, vous pouvez également utiliser la base de données AdventureWorksLT que nous avons utilisée comme source de données pour la destination.
Choisissez une base de données pour stocker les données et fournissez un nom de table, puis sélectionnez Suivant.
Vous pouvez conserver les paramètres par défaut dans la boîte de dialogue Choisir les paramètres de destination et sélectionner simplement Enregistrer les paramètres sans apporter de modifications ici.
Sélectionnez Publier de nouveau sur la page de l’éditeur de flux de données pour publier le flux de données.
Déplacer des données avec des pipelines de données
Maintenant que vous avez créé un Dataflow Gen2, vous pouvez l’utiliser dans un pipeline. Dans cet exemple, vous copiez les données générées à partir du flux de données dans un format texte dans un compte Stockage Blob Azure.
Étape 1 : Créer un pipeline de données
Dans votre espace de travail, sélectionnez Nouveau, puis Pipeline de données.
Nommez votre pipeline, puis sélectionnez Créer.
Étape 2 : Configurer votre flux de données
Ajoutez une nouvelle activité de flux de données à votre pipeline de données en sélectionnant Flux de données sous l’onglet Activités .
Sélectionnez le flux de données sur le canevas du pipeline, puis l’onglet Paramètres. Choisissez le flux de données que vous avez créé précédemment dans la liste déroulante.
Sélectionnez Enregistrer, puis Exécuter pour exécuter le flux de données afin de remplir initialement la table de requête fusionnée que vous avez conçue à l’étape précédente.
Étape 3 : Utiliser le assistant de copie pour ajouter une activité de copie
Sélectionnez Copier les données sur le canevas pour ouvrir l’outil Assistant Copie pour commencer. Vous pouvez également sélectionner Utiliser la copie assistant dans la liste déroulante Copier les données sous l’onglet Activités du ruban.
Choisissez votre source de données en sélectionnant un type de source de données. Dans ce tutoriel, vous utilisez la base de données Azure SQL utilisée précédemment lorsque vous avez créé le flux de données pour générer une nouvelle requête de fusion. Faites défiler vers le bas sous les offres de données d’échantillon et sélectionnez l’onglet Azure, puis Base de données Azure SQL. Puis sélectionnez Suivant pour continuer.
Créez une connexion à votre source de données en sélectionnant Créer une connexion. Renseignez les informations de connexion requises dans le panneau, puis entrez AdventureWorksLT pour la base de données, où nous avons généré la requête de fusion dans le flux de données. Sélectionnez ensuite Suivant.
Sélectionnez la table que vous avez générée à l’étape de flux de données précédemment, puis sélectionnez Suivant.
Pour votre destination, choisissez Stockage Blob Azure, puis sélectionnez Suivant.
Créez une connexion à votre destination en sélectionnant Créer une connexion. Fournissez les informations nécessaires pour votre connexion, puis sélectionnez Suivant.
Sélectionnez votre chemin d’accès au dossier et indiquez un nom de fichier, puis sélectionnez Suivant.
Sélectionnez à nouveau Suivant pour accepter le format de fichier par défaut, le délimiteur de colonne, le délimiteur de ligne et le type de compression, y compris éventuellement un en-tête.
Finalisez vos paramètres. Ensuite, passez en revue et sélectionnez Enregistrer + Exécution pour terminer le processus.
Étape 5 : Concevoir votre pipeline de données et enregistrer pour exécuter et charger des données
Pour exécuter l’activité de copie après l’activité de flux de données, faites glisser l’activité Réussite de l’activité de flux de données vers l’activité de copie. L’activité de copie ne s’exécute qu’une fois l’activité de flux de données réussie.
Sélectionnez Enregistrer pour enregistrer votre pipeline de données. Sélectionnez ensuite Exécuter pour exécuter votre pipeline de données et charger vos données.
Planifier l’exécution du pipeline
Une fois que vous avez terminé le développement et le test de votre pipeline, vous pouvez le planifier pour qu’il s’exécute automatiquement.
Sous l’onglet Accueil de la fenêtre de l’éditeur de pipeline, sélectionnez Planification.
Configurez la planification en fonction des besoins. L’exemple ci-dessous planifie l’exécution quotidienne du pipeline à 20h00 jusqu’à la fin de l’année.
Contenu connexe
Cet exemple vous montre comment créer et configurer un Dataflow Gen2 pour créer une requête de fusion et la stocker dans une base de données Azure SQL, puis copier des données de la base de données dans un fichier texte dans Stockage Blob Azure. Vous avez appris à :
- Créer un flux de données.
- Transformer des données avec le flux de données.
- Créez un pipeline de données à l’aide du flux de données.
- Ordonner l’exécution des étapes dans le pipeline.
- Copier des données avec l’Assistant Copie.
- Exécutez et planifiez votre pipeline de données.
Ensuite, avancez pour en savoir plus sur la surveillance des exécutions de votre pipeline.