Configurer le stockage de flux de données pour utiliser Azure Data Lake Gen 2

Par défaut, les données utilisées avec Power BI sont stockées dans le stockage interne fourni par Power BI. Avec l’intégration des dataflows et d’Azure Data Lake Storage Gen 2 (ADLS Gen2), vous pouvez stocker vos dataflows dans le compte Azure Data Lake Storage Gen2 de votre organisation. Cette fonctionnalité vous permet essentiellement « d’apporter votre propre stockage » pour les flux de données Power BI et d’établir une connexion au niveau du locataire ou de l’espace de travail.

Raisons d’utiliser l’espace de travail ou la connexion du locataire ADLS Gen2

Une fois que vous avez attaché votre dataflow, Power BI configure et enregistre une référence qui vous permet maintenant de lire et d’écrire des données dans votre propre ADLS Gen2. Power BI stocke les données au format CDM (Common Data Model), qui capture les métadonnées relatives à vos données en plus des données réelles générées par le flux de données lui-même. Cette fonctionnalité déverrouille un grand nombre de puissantes fonctionnalités, et permet à vos données et aux métadonnées associées au format CDM d’être utilisées dans des scénarios d’extensibilité, d’automatisation, de supervision et de sauvegarde. En rendant ces données disponibles et largement accessibles dans votre propre environnement, vous pouvez démocratiser les insights et les données créées au sein de l’organisation. Cela vous permet également de créer d’autres solutions d’une grande complexité. Il peut notamment s’agir d’applications et de solutions personnalisées prenant en charge le format CDM dans Power Platform, Azure et autres plateformes disponibles via les écosystèmes de partenaires et de fournisseurs de logiciels indépendants (ISV). Vous pouvez également créer une application pour lire un fichier CSV. Vos ingénieurs de données, scientifiques des données et analystes peuvent désormais utiliser et réutiliser un ensemble commun de données organisé dans ADLS Gen2.

Il existe deux façons de configurer le magasin ADLS Gen2 à utiliser : vous pouvez utiliser un compte ADLS Gen2 affecté par un locataire ou apporter votre propre magasin ADLS Gen2 au niveau de l’espace de travail.

Prérequis

  • Pour apporter votre propre compte ADLS Gen2, vous devez disposer de l’autorisation Propriétaire au niveau du compte de stockage. Les autorisations au niveau du groupe de ressources ou de l’abonnement ne fonctionneront pas. Si vous êtes administrateur, vous devez quand même vous attribuer une autorisation de propriétaire. Actuellement, ne prend pas en charge les comptes de stockage ADLS Gen2 derrière un pare-feu.

  • Le compte de stockage doit être créé avec l’espace de noms hiérarchique activé.

  • Le compte de stockage doit être créé dans le même locataire Microsoft Entra que le locataire Power BI.

  • L’utilisateur doit avoir le rôle Propriétaire des données blob du stockage, le rôle Lecteur des données blob du stockage et un rôle Propriétaire au niveau du compte de stockage (l’étendue doit être cette ressource et non héritée). La synchronisation de toute modification de rôle appliquée peut prendre quelques minutes et doit se produire avant que les étapes suivantes puissent être effectuées dans le service Power BI.

  • La région du locataire de l’espace de travail Power BI doit être la même que celle du compte de stockage.

  • TLS (Transport Layer Security) version 1.2 (ou ultérieure) est requis pour sécuriser vos points de terminaison. Les navigateurs Web et les autres applications clientes qui utilisent des versions TLS antérieures à TLS 1.2 ne pourront pas se connecter.

  • L’attachement d’un flux de données avec ADLS Gen2 derrière une authentification multifacteur (MFA) n’est pas pris en charge.

  • Enfin, vous pouvez vous connecter à n’importe quel compte ADLS Gen2 à partir du portail d’administration, mais si vous vous connectez directement à un espace de travail, vous devez vérifier que ce dernier ne comporte aucun flux de données avant de vous connecter.

Notes

La fonctionnalité Apporter votre propre stockage (Azure Data Lake Gen 2) n’est pas disponible dans le service Power BI pour les clients U.S. Government GCC (Cloud de la communauté du secteur public des États-Unis). Pour plus d’informations sur les fonctionnalités disponibles et non disponibles, consultez Disponibilité des fonctionnalités Power BI pour les clients U.S. Government.

Le tableau suivant décrit les autorisations pour ADLS et pour Power BI nécessaires pour ADLS Gen2 et Power BI :

Action Autorisations ADLS Autorisations Power BI minimales
Connecter ADLS Gen2 à un locataire Power BI Propriétaire Administrateur Power BI
Connecter ADLS Gen2 à un espace de travail Propriétaire Administrateur de l’espace de service
Créer des dataflows Power BI en écriture différée dans le compte ADLS connecté Non applicable Contributeur d’espace de travail
Consommer un dataflow Power BI Non applicable Visionneuse d’espace de travail

Se connecter à un compte Azure Data Lake Gen2 au niveau d’un espace de travail

Accédez à un espace de travail qui ne comporte aucun dataflow. Sélectionnez Paramètres de l’espace de travail. Sélectionnez l’onglet Connexionx Azure, puis la section Stockage.

Screenshot of the Workspace settings pane on the Azure connections tab.

L’option Utiliser la connexion Azure par défaut est visible si l’administrateur a déjà configuré un compte ADLS Gen2 affecté par le locataire. Deux options s'offrent à vous :

  • Utiliser le compte ADLS Gen2 configuré par le locataire en cochant la case Utiliser la connexion Azure par défaut.
  • Sélectionner Se connecter à Azure pour pointer vers un nouveau compte de stockage Azure.

Quand vous sélectionnez Se connecter à Azure, Power BI récupère la liste des abonnements Azure auxquels vous avez accès. Renseignez les listes déroulantes. Sélectionnez ensuite un abonnement Azure, un groupe de ressources et un compte de stockage valides avec l’option d’espace de noms hiérarchique activée, qui est l’indicateur ADLS Gen2. Le compte personnel utilisé afin de se connecter à Azure n’est utilisé qu’une seule fois pour définir la connexion initiale et accorder au compte de service Power BI des droits de lecture et d’écriture de données, Après quoi, le compte d’utilisateur d’origine n’est plus nécessaire pour maintenir la connexion active.

Screenshot of the Settings window after choosing Connecting to Azure.

Une fois votre sélection effectuée, sélectionnez Enregistrer : vous avez maintenant connecté l’espace de travail à votre propre compte ADLS Gen2. Power BI configure automatiquement le compte de stockage avec les autorisations nécessaires et définit le système de fichiers Power BI dans lequel les données seront écrites. Désormais, les données de chaque flux de données situé à l’intérieur de cet espace de travail seront directement écrites dans ce système de fichiers, qui peut être utilisé avec les autres services Azure. Vous disposez maintenant d’une source unique pour toutes les données de votre organisation ou de votre service.

Configuration des connexions Azure

La configuration de connexions Azure est un paramètre facultatif comprenant davantage de propriétés que vous pouvez ou non définir :

  • Stockage au niveau du locataire, qui vous permet de définir une valeur par défaut, et/ou
  • Stockage au niveau de l’espace de travail, qui vous permet de spécifier la connexion par espace de travail.

Vous pouvez configurer le stockage au niveau du locataire si vous souhaitez utiliser uniquement un lac de données centralisé ou si vous souhaitez que ce stockage soit l’option par défaut. Comme nous n’utilisons pas automatiquement la valeur par défaut, vous disposez d’une configuration flexible. Vous pouvez donc configurer les espaces de travail qui utilisent cette connexion à votre gré. Si vous configurez un compte ADLS Gen2 affecté par un locataire, vous devez toujours configurer chaque espace de travail de manière à utiliser cette option par défaut.

Vous pouvez, en option ou en plus, configurer des autorisations de stockage au niveau de l’espace de travail en tant qu’option distincte, ce qui vous offre une flexibilité totale pour définir un compte ADLS Gen2 spécifique à chaque espace de travail.

En résumé, si les autorisations de stockage au niveau du locataire et au niveau de l’espace de travail sont permises, les administrateurs d’espace de travail peuvent utiliser la connexion ADLS par défaut ou choisir de configurer un autre compte de stockage distinct de l’option par défaut. Si le stockage au niveau du locataire n’est pas défini, les administrateurs d’espace de travail peuvent configurer un compte ADLS propre à chaque espace de travail. Enfin, si le stockage au niveau du locataire est sélectionné et que le stockage au niveau de l’espace de travail n’est pas autorisé, les administrateurs d’espace de travail peuvent configurer leurs flux de données de manière à utiliser cette connexion.

Structure et format des connexions d’espace de travail ADLS Gen2

Dans le compte de stockage ADLS Gen2, tous les dataflows sont stockés dans le conteneur powerbi du système de fichiers.

La structure du conteneur powerbi se présente comme suit : <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> et <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

L’emplacement où des flux de données stockent des données dans l’arborescence des dossiers pour ADLS Gen2 est le même, que l’espace de travail se situe dans une capacité partagée ou une capacité Premium.

L’exemple suivant utilise la table Orders de l’exemple Northwind Odata.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

Dans l’image précédente :

  • model.json représente la version la plus récente du flux de données.
  • model.json.snapshots représente toutes les versions précédentes du flux de données. Cet historique est utile si vous avez besoin d’une version précédente du mashup ou de paramètres incrémentiels.
  • Tablename est le dossier contenant des données obtenues une fois l’actualisation du flux de données terminée.

Nous ne faisons qu’écrire dans ce compte de stockage et nous n’y supprimons pas de données. Ainsi, même en cas de détachement, nous ne supprimons rien dans le compte ADLS : tous les fichiers mentionnés précédemment y sont donc encore stockés.

Notes

Les flux de données permettent de lier ou de référencer des tables dans d’autres flux de données. Dans ces flux de données, le fichier model.json peut faire référence à un autre model.json d’un flux de données différent dans le même espace de travail ou dans un autre espace de travail.

Déplacement de fichiers entre/au sein des comptes de stockage ADLS Gen2

Lorsque vous déplacez un flux de données d’un compte de stockage ADLS Gen2 vers un autre, vous devez vérifier que les chemins d’accès dans le fichier model.json sont mis à jour pour refléter le nouvel emplacement. En effet, le fichier model.json contient le chemin d’accès au flux de données et le chemin d’accès aux données. Si vous ne mettez pas à jour les chemins d’accès, le flux de données ne sera pas en mesure de trouver les données et provoquera des erreurs d’autorisation. Pour mettre à jour les chemins d’accès, vous pouvez effectuer les étapes suivantes :

  • Ouvrez le fichier model.json dans un éditeur de texte.
  • Recherchez l’URL du compte de stockage et remplacez-la par la nouvelle URL du compte de stockage.
  • Enregistrez le fichier.
  • Remplacez le fichier model.json existant dans le compte de stockage ADLS Gen2.

Extensibilité pour les connexions d’espace de travail ADLS Gen2

Si vous connectez ADLS Gen2 à Power BI, vous pouvez effectuer cette action au niveau de l’espace de travail ou du locataire. Veillez à disposer du niveau d’accès approprié. Pour plus d’informations, consultez Prérequis.

La structure de stockage respecte le format CDM (Common Data Model). Pour en savoir plus sur la structure de stockage et le CDM, consultez Présentation de la structure de stockage pour les flux de données analytiques et Utiliser Common Data Model pour optimiser Azure Data Lake Storage Gen2.

Une fois la structure correctement configurée, les données et les métadonnées sont sous votre contrôle. De nombreuses applications connaissent le CDM et les données peuvent être étendues à l’aide d’Azure, PowerApps et PowerAutomate. Vous pouvez également utiliser des écosystèmes tiers en vous conformant au format ou en lisant les données brutes.

Détacher Azure Data Lake Gen2 d’un espace de travail ou d’un locataire

Avant de supprimer une connexion au niveau d’un espace de travail, vous devez d’abord vérifier que tous les dataflows de l’espace de travail ont été supprimés. Une fois tous les flux de données supprimés, sélectionnez Déconnecter dans les paramètres d’espace de travail. Cela vaut aussi pour un locataire, mais vous devez d’abord vérifier que tous les espaces de travail ont également été déconnectés du compte de stockage du locataire avant de pouvoir vous déconnecter au niveau du locataire.

Désactiver Azure Data Lake Gen2

Sur le portail d’administration, sous dataflows, vous pouvez désactiver l’accès pour permettre aux utilisateurs d’utiliser cette fonctionnalité et empêcher les administrateurs de l’espace de travail d’apporter leur propre Stockage Azure.

Rétablir Azure Data Lake Gen2

Une fois le stockage du flux de données configuré pour utiliser Azure Data Lake Gen2, il n’existe aucun moyen de l’annuler automatiquement. Le processus qui permet de revenir au stockage géré par Power BI est manuel.

Pour annuler la migration que vous avez effectuée vers Gen2, vous devez supprimer vos flux de données et les recréer dans le même espace de travail. Ensuite, comme nous ne supprimons pas de données dans ADLS Gen2, accédez à la ressource elle-même et nettoyez les données. Cette action implique les étapes suivantes.

  1. Exportez une copie du dataflow depuis Power BI. Vous pouvez aussi copier le fichier model.json. Le fichier model.json est stocké dans ADLS.

  2. Supprimez les dataflows.

  3. Détachez ADLS.

  4. Recréez le flux de données en utilisant l’importation. Les données d’actualisation incrémentielle (le cas échéant) devront être supprimées avant l’importation. Pour ce faire, supprimez les partitions appropriées dans le fichier model.json.

  5. Configurez les stratégies d’actualisation incrémentielle et de recréation.

Se connecter aux données en utilisant le connecteur ADLS Gen2

Ce document décrit les connexions de dataflow ADLS Gen2, mais pas le connecteur Power BI ADLS Gen2. L’utilisation du connecteur ADLS Gen2 est un scénario distinct comprenant peut-être des éléments supplémentaires. Le connecteur ADLS utilise simplement ADLS comme source de données. Utiliser Power Query Online pour interroger ces données n’implique pas le recours au format CDM : le format des données est au choix du client. Pour plus d’informations, consultez Azure Data Lake Storage Gen2.

Les articles suivants vous permettront d’en savoir plus sur les dataflows et Power BI :