Module 1 : Créer un pipeline avec Data Factory

Ce module prend 10 minutes, ingérer des données brutes du magasin source dans la table Bronze d’un lakehouse de données à l’aide de la activité Copy dans un pipeline.

Les étapes générales du module 1 sont les suivantes :

  1. Créez un pipeline de données.
  2. Utilisez une activité de copie dans le pipeline pour charger des exemples de données dans un lakehouse de données.

Créer un pipeline de données

  1. Un compte locataire Microsoft Fabric avec un abonnement actif est requis. Créez un compte gratuit.

  2. Vérifiez que vous disposez d’un espace de travail avec Microsoft Fabric : Créer un espace de travail.

  3. Se connecter à Power BI.

  4. Sélectionnez l’icône Power BI par défaut en bas à gauche de l’écran, puis basculez vers l’expérience Data Factory.

    Screenshot showing the selection of the Data Factory experience.

  5. Sélectionnez Pipeline de données et fournissez un nom de pipeline. Sélectionnez ensuite Créer.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

Utilisez une activité Copy dans le pipeline pour charger des exemples de données dans un lakehouse de données

Étape 1 : Utilisez l’assistant Copy pour configurer une activité de copie.

Sélectionnez Copier les données pour ouvrir l’outil de assistant Copy.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

Étape 2 : Configurez vos paramètres dans le assistant Copy.

  1. La boîte de dialogue Copier les données s’affiche avec la première étape, Choisir une source de données, mise en surbrillance. Faites défiler vers le bas si nécessaire jusqu’à la section Sources de données, puis sélectionnez le type de source de données Stockage Blob Azure. Sélectionnez ensuite Suivant.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. À l’étape suivante, sélectionnez Créer une connexion, puis fournissez l’URL du stockage d’objets blob qui héberge les exemples de données fournis pour ce didacticiel, à l’adresse https://nyctaxisample.blob.core.windows.net/sample. Le type d’authentification est Anonyme. Sélectionnez Suivant après avoir fourni l’URL.

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. L’étape Se connecter à la source de données s’affiche et, initialement, vous voyez une erreur Impossible de répertorier les fichiers, car les autorisations n’ont été accordées qu’au dossier d’exemple dans le stockage d’objets blob. Indiquez le nom du dossier, l’exemple, puis sélectionnez Réessayer.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Remarque

    Le dossier de stockage d’objets blob respecte la casse et doit être en minuscules.

  4. Le navigateur de stockage d’objets blob s’affiche ensuite. Sélectionnez le fichier NYC-Taxi-Green-2015-01.parquet, puis attendez que l’aperçu des données s’affiche. Sélectionnez ensuite Suivant.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. Pour l’étape Choisir la destination des données de l’assistant Copy, sélectionnez Lakehouse, puis Suivant.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. Sélectionnez Créer un lakehouse dans la page de configuration de destination des données qui s’affiche, puis entrez un nom pour le nouveau Lakehouse. Puis sélectionnez Suivant ensuite.

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. Configurez maintenant les détails de votre destination Lakehouse dans la page Sélectionner et mapper le chemin d’accès ou la table du dossier. Sélectionnez Tables pour le dossier Racine, fournissez un nom de table, puis choisissez l’action Remplacer. Ne cochez pas la case Activer la partition qui s’affiche après avoir sélectionné l’action Remplacer la table.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. Enfin, dans la page Vérifier + enregistrer de l’assistant de copie des données, passez en revue la configuration. Pour ce tutoriel, décochez la case Démarrer le transfert de données immédiatement, car nous exécutons l’activité manuellement à l’étape suivante. Sélectionnez ensuite OK.

    Screenshot showing the Copy data assistant on the Review + save page.

Étape 3 : Exécutez et affichez les résultats de votre activité Copy.

  1. Sélectionnez l’onglet Exécuter dans l’éditeur de pipeline. Sélectionnez ensuite le bouton Exécuter, puis Enregistrez et exécutez à l’invite pour exécuter l’activité Copy.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. Vous pouvez superviser l’exécution, puis vérifier les résultats sous l’onglet Sortie sous le canevas du pipeline. Sélectionnez le bouton Détails de l’exécution (l’icône « lunettes » qui apparaît lorsque vous pointez sur l’exécution du pipeline en cours d’exécution) pour afficher les détails de l’exécution.

    Screenshot showing the run details button in the pipeline Output tab.

  3. Les détails de l’exécution montrent 1 508 501 lignes lues et écrites.

    Screenshot of the Copy data details for the pipeline run.

  4. Développez la section Répartition des durées pour afficher la durée de chaque étape de l’activité Copy. Après avoir examiné les détails de la copie, sélectionnez Fermer.

    Screenshot showing the duration breakdown of the Copy activity run.

Dans ce premier module de notre tutoriel de bout en bout pour votre première intégration de données à l’aide de Data Factory dans Microsoft Fabric, vous avez appris à :

  • Créez un pipeline de données.
  • Ajoutez une activité Copy à votre pipeline.
  • Utilisez des exemples de données et créez un lakehouse de données pour stocker les données dans une nouvelle table.
  • Exécutez le pipeline et affichez ses détails et sa répartition de la durée.

Passez maintenant à la section suivante pour créer votre flux de données.