Partager via


Obtenir des données à partir du stockage Azure

Dans cet article, vous allez apprendre à obtenir des données à partir du stockage Azure (conteneur ADLS Gen2, conteneur d’objets blob ou objets blob individuels). Vous pouvez ingérer des données dans votre table en continu ou ponctuellement. Une fois ingérées, les données sont disponibles pour les requêtes.

  • Ingestion continue (aperçu) : l’ingestion continue implique la configuration d’un pipeline d’ingestion qui permet à un système de gestion d'événements d’écouter les événements de stockage Azure. Le pipeline informe le centre d'événements de récupérer des informations lorsque des événements souscrits se produisent. Les événements sont BlobCreated et BlobRenamed.

    Important

    Cette fonctionnalité est en version préliminaire.

    Remarque

    Un flux d’ingestion continu peut affecter votre facturation. Pour plus d’informations, consultez Consommation de base de données Eventhouse et KQL.

  • Ingestion ponctuelle : utilisez cette méthode pour récupérer des données à partir du stockage Azure en tant qu’opération ponctuelle.

Conditions préalables

Pour l’ingestion continue, vous avez également besoin des éléments suivants :

Ajouter l’attribution de rôle d’identité d’espace de travail au compte de stockage

  1. Dans les paramètres de l’espace de travail dans Fabric, copiez l’ID d’identité de votre espace de travail.

    Capture d’écran du paramètre d’espace de travail, avec l’ID de l’espace de travail mis en surbrillance.

  2. Dans le portail Azure, accédez à votre compte stockage Azure, puis sélectionnez Contrôle d’accès (IAM)>Ajouter une>attribution de rôle.

  3. Sélectionnez Lecteur de données de stockage Blob.

  4. Dans la boîte de dialogue Ajouter une attribution de rôle , sélectionnez + Sélectionner des membres.

  5. Collez l’ID d’identité de l’espace de travail, sélectionnez l’application, puis sélectionnez>Vérifier + affecter.

Créer un conteneur avec un fichier de données

  1. Dans le compte de stockage, sélectionnez Conteneurs.

  2. Sélectionnez + Conteneur, entrez un nom pour le conteneur, puis sélectionnez Enregistrer.

  3. Entrez le conteneur, sélectionnez charger et charger le fichier de données préparé précédemment.

    Pour plus d’informations, consultez les formats pris en charge et les compressions prises en charge.

  4. Dans le menu contextuel, [...], sélectionnez Propriétés du conteneur et copiez l’URL à entrer pendant la configuration.

    Capture d’écran montrant la liste des conteneurs avec le menu contextuel ouvert avec les propriétés de conteneur mises en surbrillance.

Origine

Définissez la source pour obtenir des données.

  1. Dans votre espace de travail, ouvrez EventHouse, puis sélectionnez la base de données.

  2. Dans le ruban de base de données KQL, sélectionnez Obtenir des données.

  3. Sélectionnez la source de données dans la liste disponible. Dans cet exemple, vous ingérez des données à partir d’un stockage Azure.

    Capture d’écran de la fenêtre Obtenir des données avec l’onglet source sélectionné.

Configurer

  1. Sélectionnez une table de destination. Si vous souhaitez ingérer des données dans une nouvelle table, sélectionnez + Nouvelle table et entrez un nom de table.

    Remarque

    Les noms de tables peuvent comporter jusqu’à 1 024 caractères, y compris des espaces, des caractères alphanumériques, des traits d’union et des tirets bas. Les caractères spéciaux ne sont pas pris en charge.

  2. Dans la configuration de la connexion du stockage Blob Azure, assurez-vous que l’ingestion continue est activée. Elle est activée par défaut.

  3. Configurez la connexion en créant une connexion ou en utilisant une connexion existante.

    Pour créer une connexion :

    1. Sélectionnez Se connecter à un compte de stockage.

      Capture d’écran de l’onglet Configurer avec ingestion continue et connexion à un compte sélectionné.

    2. Utilisez les descriptions suivantes pour vous aider à renseigner les champs.

      Paramètre Description du champ
      Abonnement Abonnement au compte de stockage.
      Compte de stockage d’objets blob Nom du compte de stockage.
      Conteneur Conteneur de stockage contenant le fichier que vous souhaitez ingérer.
    3. Dans le champ Connexion , ouvrez la liste déroulante et sélectionnez + Nouvelle connexion, puis Enregistrez>fermer. Les paramètres de connexion sont préremplis.

    Remarque

    La création d’une connexion entraîne un nouveau flux d’événements. Le nom est défini comme <storate_account_name>_eventstream. Veillez à ne pas supprimer le flux d’événements d’ingestion continu de l’espace de travail.

    Pour utiliser une connexion existante :

    1. Sélectionnez Sélectionner un compte de stockage existant.

      Capture d’écran de l’onglet Configurer avec ingestion continue et connexion à un compte existant sélectionné.

    2. Utilisez les descriptions suivantes pour vous aider à renseigner les champs.

      Paramètre Description du champ
      RTAStorageAccount Flux d’événements connecté à votre compte de stockage à partir de Fabric.
      Conteneur Conteneur de stockage contenant le fichier que vous souhaitez ingérer.
      Connexion Ceci est préconfiguré avec la chaîne de connexion
    3. Dans le champ Connexion , ouvrez la liste déroulante et sélectionnez la chaîne de connexion existante dans la liste. Sélectionnez Ensuite Enregistrer>fermer.

  4. Si vous le souhaitez, développez les filtres de fichier et spécifiez les filtres suivants :

    Paramètre Description du champ
    Chemin d’accès au dossier Filtre les données pour ingérer des fichiers avec un chemin d’accès de dossier spécifique.
    Extension de fichier Filtre les données pour ingérer des fichiers avec une extension de fichier spécifique uniquement.
  5. Dans la section Paramètres de flux d'événements, vous pouvez sélectionner les événements à surveiller dans les paramètres avancés>types d’événements. Par défaut, le blob créé est sélectionné. Vous pouvez également sélectionner Blob renommé.

    Capture d’écran des paramètres avancés avec la liste déroulante Types d’événements développés.

  6. Sélectionnez Suivant pour afficher un aperçu des données.

Inspecter

L’onglet Inspecter s’ouvre avec un aperçu des données.

Pour terminer le processus d’ingestion, sélectionnez Terminer.

capture d’écran de l’onglet Inspecter.

Remarque

Pour activer l'ingestion continue de données et l'aperçu des données, assurez-vous de charger un nouveau blob de stockage après la configuration.

Optionnellement:

  • Utilisez la liste déroulante du fichier de définition de schéma pour modifier le fichier à partir duquel le schéma est déduit.

  • Utilisez la liste déroulante type de fichier pour explorer les options avancées en fonction du type de données.

  • Utilisez la liste déroulante Table_mapping pour définir un nouveau mappage.

  • Sélectionnez </> pour ouvrir la visionneuse de commandes pour afficher et copier les commandes automatiques générées à partir de vos entrées. Vous pouvez également ouvrir les commandes dans un ensemble de requêtes

  • Sélectionnez l’icône de crayon pour modifier les colonnes.

Modifier les colonnes

Remarque

  • Pour les formats tabulaires (CSV, TSV, PSV), vous ne pouvez pas mapper une colonne deux fois. Pour mapper à une colonne existante, commencez par supprimer la nouvelle colonne.
  • Vous ne pouvez pas modifier un type de colonne existant. Si vous essayez de mapper à une colonne avec un format différent, vous risquez de vous retrouver avec des colonnes vides.

Les modifications que vous pouvez apporter dans une table dépendent des paramètres suivants :

  • Le type de la table est nouveau ou existant
  • Si le type du mappage est nouveau ou existant
Type de la table Type de mappage Ajustements disponibles
Nouvelle table Nouveau mappage Renommer une colonne, modifier le type de données, modifier la source de données, transformation de mappage, ajouter une colonne, supprimer une colonne
Table existante Nouveau mappage Ajouter une colonne (sur laquelle vous pouvez ensuite modifier le type de données, renommer et mettre à jour)
Table existante Cartographie existante aucun

Capture d’écran des colonnes ouvertes pour modification.

Transformations de cartographie

Certains mappages de format de données (Parquet, JSON et Avro) permettent des transformations simples lors de l'ingestion. Pour appliquer des transformations de mappage, créez ou mettez à jour une colonne dans la fenêtre Modifier les colonnes.

Les transformations de mappage peuvent être effectuées sur une colonne de type chaîne ou datetime, avec la source ayant un type de données int ou long. Pour plus d’informations, consultez la liste complète des transformations de mappage prises en charge.

Options avancées basées sur le type de données

Tabulaire (CSV, TSV, PSV) :

  • Si vous ingérez des formats tabulaires dans une table existante, vous pouvez sélectionner Avancé>Conserver le schéma de table. Les données tabulaires n’incluent pas nécessairement les noms de colonnes utilisés pour mapper les données sources aux colonnes existantes. Lorsque cette option est cochée, le mappage est effectué par ordre et le schéma de table reste le même. Si cette option n’est pas cochée, de nouvelles colonnes sont créées pour les données entrantes, quelle que soit la structure des données.

    Capture d’écran des options avancées.

  • Les données tabulaires n’incluent pas nécessairement les noms de colonnes utilisés pour mapper les données sources aux colonnes existantes. Pour utiliser la première ligne comme noms de colonnes, sélectionnez La première ligne est l’en-tête de colonne.

    Capture d’écran de la première ligne est le commutateur d’en-tête de colonne.

Tabulaire (CSV, TSV, PSV) :

  • Si vous ingestionnez des formats tabulaires dans une table existante, vous pouvez sélectionner Table_mapping>Utiliser un schéma existant. Les données tabulaires n’incluent pas nécessairement les noms de colonnes utilisés pour mapper les données sources aux colonnes existantes. Lorsque cette option est cochée, le mappage est effectué par ordre et le schéma de table reste le même. Si cette option n’est pas cochée, de nouvelles colonnes sont créées pour les données entrantes, quelle que soit la structure des données.

  • Pour utiliser la première ligne en tant que noms de colonnes, sélectionnez Premier en-tête de ligne.

    Capture d’écran des options CSV avancées.

JSON :

  • Pour déterminer la division de colonnes des données JSON, sélectionnez niveaux imbriqués, de 1 à 100.

    Capture d’écran des options JSON avancées.

Résumé

Dans la fenêtre Résumé , toutes les étapes sont marquées avec des coches vertes lorsque l’ingestion des données se termine correctement. Vous pouvez sélectionner une carte pour explorer les données, supprimer les données ingérées ou créer un tableau de bord avec des métriques clés.

Capture d'écran de la page de résumé pour l'ingestion continue terminée avec succès.

Lorsque vous fermez la fenêtre, vous pouvez voir la connexion sous l’onglet Explorateur, sous Flux de données. À partir de là, vous pouvez filtrer les flux de données et supprimer un flux de données.

Capture d’écran de l’Explorateur de bases de données KQL avec flux de données mis en surbrillance.