Tutoriel Lakehouse : ingérer des données dans le lakehouse

Dans ce tutoriel, vous allez ingérer davantage de tables de faits et de dimensions à partir de Wide World Importers (WWI) dans le lakehouse.

Prérequis

  • Si vous n’avez pas de lakehouse, vous devez en créer un.

Ingérer des données

Dans cette section, vous allez utiliser l’activité Copier des données du pipeline Data Factory pour ingérer des exemples de données d’un compte de stockage Azure vers la section Fichiers du lakehouse que vous avez créé précédemment.

  1. Sélectionnez Espaces de travail dans le volet de navigation gauche, puis votre nouvel espace de travail dans le menu Espaces de travail. La vue Éléments de votre espace de travail s’affiche.

  2. Depuis l’élément de menu +Nouveau du ruban de l’espace de travail, sélectionnez Pipeline de données.

    Capture d’écran montrant comment créer un pipeline de données.

  3. Dans la boîte de dialogue Nouveau pipeline, spécifiez le nom IngestDataFromSourceToLakehouse, puis sélectionnez Créer. Un pipeline de fabrique de données est créé et ouvert.

  4. Dans votre pipeline de fabrique de données nouvellement créé, sélectionnez Activité de pipeline pour ajouter une activité au pipeline, puis sélectionnez Copier des données. Cette action ajoute l’activité de copie de données au canevas du pipeline.

    Capture d’écran montrant où sélectionner Activité de pipeline et Copier des données.

  5. Sélectionnez l’activité de copie de données nouvellement ajoutée à partir du canevas. Les propriétés d’activité apparaissent dans un volet sous le canevas (vous devrez peut-être le développer vers le haut en faisant glisser le bord supérieur). Sous l’onglet Général dans le volet des propriétés, saisissez Copie de données vers lakehouse dans le champ Nom.

    Capture d’écran montrant où ajouter le nom de l’activité Copy sous l’onglet Général.

  6. Sous l’onglet Source de l’activité de copie de données sélectionnée, sélectionnez Externe comme Type de magasin de données, puis + Nouveau pour créer une connexion à la source de données.

    Capture d’écran montrant où sélectionner Externe et + Nouveau sous l’onglet Source.

  7. Pour ce tutoriel, tous les exemples de données sont disponibles dans un conteneur public de stockage d’objets blob Azure. Vous vous connectez à ce conteneur pour copier des données à partir de celui-ci. Dans l’assistant Nouvelle connexion, sélectionnez Stockage Blob Azure, puis Continuer.

    Capture d’écran de l’assistant Nouvelle connexion, indiquant où sélectionner Stockage Blob Azure.

  8. Dans l’écran Paramètres de connexion, entrez les détails suivants, puis sélectionnez Créer pour créer la connexion à la source de données.

    Propriété Valeur
    Nom ou URL du compte https://azuresynapsestorage.blob.core.windows.net/sampledata
    Connexion Créer une connexion
    Nom de la connexion wwisampledata
    Type d'authentification Anonyme

    Capture d’écran de l’écran Paramètres de connexion, indiquant où entrer les détails et sélectionner Créer.

  9. Une fois la connexion créée, revenez à l’onglet Source de l’activité de copie de données, et la connexion nouvellement créée est sélectionnée par défaut. Spécifiez les propriétés suivantes avant de passer aux paramètres de destination.

    Propriété Valeur
    Type de banque de données Externe
    Connexion wwisampledata
    Type de chemin d’accès au fichier Chemins d'accès au fichier
    Chemins d'accès au fichier Nom du conteneur (première zone de texte) : sampledata
    Nom du répertoire (deuxième zone de texte) : WideWorldImportersDW/parquet
    Recursively Activée
    Format de fichier Binaire

    Capture d’écran de l’onglet Source indiquant où entrer les détails spécifiques.

  10. Sous l’onglet Destination de l’activité de copie de données sélectionnée, spécifiez les propriétés suivantes :

    Propriété Valeur
    Type de banque de données Espace de travail
    Type de magasin de données de l’espace de travail Lakehouse
    Lakehouse wwilakehouse
    Dossier racine Fichiers
    Chemins d'accès au fichier Nom du répertoire (première zone de texte) : wwi-raw-data
    Format de fichier Binaire

    Capture d’écran de l’onglet Destination, indiquant où entrer les détails spécifiques.

  11. Vous avez configuré l’activité de copie des données. Sélectionnez l’icône d’enregistrement dans le ruban supérieur (sous Accueil) pour enregistrer vos modifications, puis sélectionnez Exécuter pour exécuter votre pipeline et son activité. Vous pouvez également planifier des pipelines pour actualiser les données à des intervalles définis pour répondre aux besoins de votre entreprise. Pour ce tutoriel, nous n’exécutons le pipeline qu’une seule fois en sélectionnant Exécuter.

    Cette action déclenche la copie des données de la source de données sous-jacente vers le lakehouse spécifié et peut prendre jusqu’à une minute. Vous pouvez superviser l’exécution du pipeline et son activité sous l’onglet Sortie, qui s’affiche lorsque vous cliquez n’importe où sur le canevas. Si vous le souhaitez, vous pouvez sélectionner l’icône de lunettes, qui apparaît lorsque vous pointez sur le nom, pour examiner les détails du transfert de données.

    Capture d’écran indiquant où sélectionner Enregistrer et Exécuter, et où trouver les détails d’exécution et l’icône de lunettes sous l’onglet Sortie.

  12. Une fois les données copiées, accédez à la vue Éléments de l’espace de travail et sélectionnez votre nouveau lakehouse (wwilakehouse) pour lancer la vue Explorateur.

    Capture d’écran indiquant où sélectionner le lakehouse pour lancer la vue Explorateur.

  13. Vérifiez que dans la vue Explorateur, un nouveau dossier wwi-raw-data s’affiche et que les données de toutes les tables y ont été copiées.

    Capture d’écran montrant que la source de données est copiée dans l’explorateur de lakehouse.

Pour charger des données incrémentielles dans un lakehouse, voir Charger de manière incrémentielle des données de Data Warehouse vers Lakehouse.

Étape suivante