Ingérer des données dans Azure Data Lake Storage Gen2

Article
06/01/2023

Cet article explique comment ingérer des données d’un emplacement dans un autre, dans un compte de stockage Azure Data Lake Gen 2 à l’aide d’Azure Synapse Analytics.

Prérequis

Abonnement Azure : Si vous n’avez pas d’abonnement Azure, créez un compte Azure gratuit avant de commencer.
Compte Stockage Azure : Vous utilisez Azure Data Lake Gen 2 en tant que magasin de données source. Si vous ne possédez pas de compte de stockage, procédez de la manière décrite dans l’article Créer un compte de stockage Azure pour en créer un.

Créez des services liés

Dans Azure Synapse Analytics, un service lié vous permet de définir vos informations de connexion à d’autres services. Dans cette section, vous allez ajouter Azure Synapse Analytics et Azure Data Lake Gen 2 en tant que services liés.

Ouvrez l’expérience utilisateur Azure Synapse Analytics et accédez à l’onglet Gérer.
Sous Connexions externes, sélectionnez Services liés.
Pour ajouter un service lié, sélectionnez Nouveau.
Sélectionnez la vignette Azure Data Lake Storage Gen2 dans la liste, puis sélectionnez Continuer.
Entrez vos informations d’identification d’authentification. Les types d’authentification actuellement pris en charge sont les suivants : clé de compte, principal de service et identité managée. Sélectionnez Tester la connexion pour vérifier que vos informations d’identification sont correctes.
Lorsque vous avez terminé, sélectionnez Créer.

Création d’un pipeline

Un pipeline contient le flux logique pour l’exécution d’un ensemble d’activités. Dans cette section, vous allez créer un pipeline contenant une activité de copie qui ingère des données d’Azure Data Lake Gen 2 dans un pool SQL dédié.

Accédez à l’onglet Orchestrer. Sélectionnez l’icône + en regard de l’en-tête Pipelines, puis sélectionnez Pipeline.
Dans le volet des activités, sous Déplacer et transformer, faites glisser Copier les données sur le canevas du pipeline.
Sélectionnez l’activité de copie, puis accédez à l’onglet Source. Sélectionnez Nouveau pour créer un jeu de données source.
Sélectionnez Azure Data Lake Storage Gen2 comme magasin de données, puis sélectionnez Continuer.
Sélectionnez DelimitedText comme format, puis sélectionnez Continuer.
Dans le volet Définir les propriétés, sélectionnez le service lié ADLS que vous avez créé. Spécifiez le chemin d’accès du fichier de vos données sources, puis spécifiez si la première ligne contient un en-tête. Vous pouvez importer le schéma à partir du magasin de fichiers ou d’un exemple de fichier. Sélectionnez OK lorsque vous avez terminé.
Accédez à l’onglet Récepteur. Sélectionnez Nouveau pour créer un jeu de données récepteur.
Sélectionnez Azure Data Lake Storage Gen2 comme magasin de données, puis sélectionnez Continuer.
Sélectionnez DelimitedText comme format, puis sélectionnez Continuer.
Dans le volet Définir les propriétés, sélectionnez le service lié ADLS que vous avez créé. Spécifiez le chemin d’accès du dossier dans lequel vous souhaitez écrire les données. Sélectionnez OK lorsque vous avez terminé.

Déboguer et publier le pipeline

Une fois la configuration de votre pipeline terminée, avant de publier vos artefacts, vous pouvez exécuter un débogage pour vérifier que tout est correct.

Pour déboguer le pipeline, sélectionnez Déboguer dans la barre d’outils. L’état d’exécution du pipeline apparaît dans l’onglet Sortie au bas de la fenêtre.
Une fois que le pipeline peut s’exécuter correctement, sélectionnez Publier tout dans la barre d’outils supérieure. Cette action publie les entités (jeux de données et pipelines) que vous avez créées dans le service Synapse Analytics.
Patientez jusqu’à voir le message Publication réussie. Pour voir les messages de notification, sélectionnez le bouton avec l’icône de cloche en haut à droite.

Déclencher et surveiller le pipeline

Au cours de cette étape, vous déclenchez manuellement le pipeline publié à l’étape précédente.

Sélectionnez Ajouter déclencheur dans la barre d’outils, puis Déclencher maintenant. Dans la page Exécution du pipeline, sélectionnez Terminer.
Accédez à l’onglet Surveiller dans la barre latérale gauche. Vous voyez un pipeline qui est déclenché par un déclencheur manuel. Vous pouvez utiliser les liens dans la colonne Actions pour afficher les détails de l’activité et réexécuter le pipeline.
Pour afficher les exécutions d’activités associées à l’exécution du pipeline, sélectionnez le lien Afficher les exécutions d’activités dans la colonne Actions. Dans cet exemple, il n’y a qu’une seule activité, vous ne voyez donc qu’une seule entrée dans la liste. Pour plus de détails sur l’opération de copie, sélectionnez le lien Détails (icône en forme de lunettes) dans la colonne Actions. Sélectionnez Exécutions de pipeline au sommet de la page pour revenir à la vue des exécutions du pipeline. Sélectionnez Actualiser pour actualiser l’affichage.
Vérifiez que vos données sont correctement écrites dans le pool SQL dédié.

Étapes suivantes

Pour plus d’informations sur l’intégration de données pour Azure Synapse Analytics, consultez l’article Ingestion de données dans un pool SQL dédié.

Partage via