Ingérer des données dans votre entrepôt à l'aide de pipelines de données

Article
04/24/2024

S'applique à : ✅ Entrepôt dans Microsoft Fabric

Les pipelines de données offrent une alternative à l’utilisation de la commande COPY via une interface graphique utilisateur. Un pipeline de données constitue un regroupement logique d’activités qui exécutent ensemble une tâche d’ingestion des données. Les pipelines vous permettent de gérer les activités d’extraction, de transformation et de chargement (ETL) au lieu de les gérer individuellement.

Dans ce tutoriel, vous allez créer un pipeline qui charge des exemples de données dans un entrepôt dans Microsoft Fabric.

Remarque

Certaines fonctionnalités d’Azure Data Factory ne sont pas disponibles dans Microsoft Fabric, mais les concepts sont interchangeables. Vous pouvez en savoir plus sur Azure Data Factory et les pipelines en consultant Pipelines et activités dans Azure Data Factory et Azure Synapse Analytics. Pour obtenir un guide de démarrage rapide, consultez Démarrage rapide : créer votre premier pipeline pour copier des données.

Créer un pipeline de données

Pour créer un pipeline, accédez à votre espace de travail, sélectionnez le bouton +Nouveau, puis Pipeline de données.
Dans la boîte de dialogue Nouveau pipeline, indiquez un nom pour votre nouveau pipeline, puis sélectionnez Créer.
Vous allez arriver dans la zone de canevas du pipeline, où vous voyez trois options pour commencer : Ajouter une activité de pipeline, Copier des données et Choisir une tâche à démarrer.

Chacune de ces options offre différentes alternatives pour créer un pipeline :
- Ajouter une activité de pipeline : cette option lance l’éditeur de pipeline, où vous pouvez créer des pipelines à partir de zéro à l’aide d’activités de pipeline.
- Copier des données : cette option lance un assistant pas à pas qui vous permet de sélectionner une source de données et une destination, et de configurer des options de chargement de données telles que les mappages de colonnes. Une fois l’opération terminée, elle crée une activité de pipeline avec une tâche Copier des données déjà configurée pour vous.
- Choisir une tâche à démarrer : cette option lance un ensemble de modèles prédéfinis pour vous aider à prendre en main les pipelines en fonction de différents scénarios.
Sélectionnez l’option Copier des données pour lancer l’assistant de copie.
La première page de l’assistant Copier des données vous permet de choisir vos propres données à partir de différentes sources de données, ou de sélectionner l’un des exemples fournis pour commencer. Pour ce tutoriel, nous allons utiliser l’échantillon COVID-19 Data Lake. Sélectionnez cette option, puis Suivant.
Dans la page suivante, vous pouvez sélectionner un jeu de données, le format de fichier source et afficher un aperçu du jeu de données sélectionné. Sélectionnez Bing COVID-19, le format CSV, puis sélectionnez suivant.
La page suivante, Destination des données, vous permet de configurer le type l’espace de travail de destination. Nous allons charger des données dans un entrepôt de notre espace de travail. Sélectionnez donc l’onglet Entrepôt et l’option Entrepôt de données. Cliquez sur Suivant.
Il est maintenant temps de choisir l’entrepôt dans lequel charger les données. Sélectionnez l’entrepôt souhaité dans la liste déroulante, puis Suivant.
La dernière étape pour configurer la destination consiste à fournir un nom à la table de destination et à configurer les mappages de colonnes. Ici, vous pouvez choisir de charger les données dans une nouvelle table ou dans une table existante, fournir un schéma et des noms de table, modifier les noms de colonnes, supprimer des colonnes ou modifier leurs mappages. Vous pouvez accepter les valeurs par défaut ou ajuster les paramètres selon votre préférence.

Lorsque vous avez terminé d’examiner les options, sélectionnez Suivant.
La page suivante vous donne la possibilité d’utiliser la préproduction ou de fournir des options avancées pour l’opération de copie de données (qui utilise la commande T-SQL COPY). Passez en revue les options sans les modifier, puis sélectionnez Suivant.
La dernière page de l’assistant propose un résumé de l’activité de copie. Sélectionnez l’option Démarrer le transfert de données immédiatement, puis sélectionnez Enregistrer + Exécuter.
Vous êtes dirigé vers la zone de canevas du pipeline, où une nouvelle activité Copier des données est déjà configurée pour vous. Le pipeline commence à s’exécuter automatiquement. Vous pouvez superviser l’état de votre pipeline dans le volet Sortie :
Après quelques secondes, votre pipeline se termine. Revenez à votre entrepôt. Vous pouvez sélectionner votre table pour afficher un aperçu des données et confirmer que l’opération de copie s’est terminée.