Tutoriel Lakehouse : ingérer des données dans le lakehouse
Dans ce tutoriel, vous allez ingérer davantage de tables de faits et de dimensions à partir de Wide World Importers (WWI) dans le lakehouse.
Prérequis
- Si vous n’avez pas de lakehouse, vous devez en créer un.
Ingérer des données
Dans cette section, vous allez utiliser l’activité Copier des données du pipeline Data Factory pour ingérer des exemples de données d’un compte de stockage Azure vers la section Fichiers du lakehouse que vous avez créé précédemment.
Sélectionnez Espaces de travail dans le volet de navigation gauche, puis votre nouvel espace de travail dans le menu Espaces de travail. La vue Éléments de votre espace de travail s’affiche.
Depuis l’élément de menu +Nouveau du ruban de l’espace de travail, sélectionnez Pipeline de données.
Dans la boîte de dialogue Nouveau pipeline, spécifiez le nom IngestDataFromSourceToLakehouse, puis sélectionnez Créer. Un pipeline de fabrique de données est créé et ouvert.
Dans votre pipeline de fabrique de données nouvellement créé, sélectionnez Activité de pipeline pour ajouter une activité au pipeline, puis sélectionnez Copier des données. Cette action ajoute l’activité de copie de données au canevas du pipeline.
Sélectionnez l’activité de copie de données nouvellement ajoutée à partir du canevas. Les propriétés d’activité apparaissent dans un volet sous le canevas (vous devrez peut-être le développer vers le haut en faisant glisser le bord supérieur). Sous l’onglet Général dans le volet des propriétés, saisissez Copie de données vers lakehouse dans le champ Nom.
Sous l’onglet Source de l’activité de copie de données sélectionnée, sélectionnez Externe comme Type de magasin de données, puis + Nouveau pour créer une connexion à la source de données.
Pour ce tutoriel, tous les exemples de données sont disponibles dans un conteneur public de stockage d’objets blob Azure. Vous vous connectez à ce conteneur pour copier des données à partir de celui-ci. Dans l’assistant Nouvelle connexion, sélectionnez Stockage Blob Azure, puis Continuer.
Dans l’écran Paramètres de connexion, entrez les détails suivants, puis sélectionnez Créer pour créer la connexion à la source de données.
Propriété Valeur Nom ou URL du compte https://azuresynapsestorage.blob.core.windows.net/sampledata
Connection Créer une connexion Nom de la connexion wwisampledata Type d'authentification Anonyme Une fois la connexion créée, revenez à l’onglet Source de l’activité de copie de données, et la connexion nouvellement créée est sélectionnée par défaut. Spécifiez les propriétés suivantes avant de passer aux paramètres de destination.
Propriété Valeur Type de banque de données Externe Connexion wwisampledata Type de chemin d’accès au fichier Chemins d'accès au fichier Chemins d'accès au fichier Nom du conteneur (première zone de texte) : sampledata
Nom du répertoire (deuxième zone de texte) : WideWorldImportersDW/parquetRecursively Activée Format de fichier Binary Sous l’onglet Destination de l’activité de copie de données sélectionnée, spécifiez les propriétés suivantes :
Propriété Valeur Type de banque de données Espace de travail Type de magasin de données de l’espace de travail Lakehouse Lakehouse wwilakehouse Dossier racine Fichiers Chemins d'accès au fichier Nom du répertoire (première zone de texte) : wwi-raw-data Format de fichier Binary Vous avez configuré l’activité de copie des données. Sélectionnez l’icône d’enregistrement dans le ruban supérieur (sous Accueil) pour enregistrer vos modifications, puis sélectionnez Exécuter pour exécuter votre pipeline et son activité. Vous pouvez également planifier des pipelines pour actualiser les données à des intervalles définis pour répondre aux besoins de votre entreprise. Pour ce tutoriel, nous n’exécutons le pipeline qu’une seule fois en sélectionnant Exécuter.
Cette action déclenche la copie des données de la source de données sous-jacente vers le lakehouse spécifié et peut prendre jusqu’à une minute. Vous pouvez superviser l’exécution du pipeline et son activité sous l’onglet Sortie, qui s’affiche lorsque vous cliquez n’importe où sur le canevas. Si vous le souhaitez, vous pouvez sélectionner l’icône de lunettes, qui apparaît lorsque vous pointez sur le nom, pour examiner les détails du transfert de données.
Une fois les données copiées, accédez à la vue Éléments de l’espace de travail et sélectionnez votre nouveau lakehouse (wwilakehouse) pour lancer la vue Explorateur.
Vérifiez que dans la vue Explorateur, un nouveau dossier wwi-raw-data s’affiche et que les données de toutes les tables y ont été copiées.
Pour charger des données incrémentielles dans un lakehouse, voir Charger de manière incrémentielle des données de Data Warehouse vers Lakehouse.