Scénarios d’utilisation de Power BI : préparation avancée des données
Notes
Cet article fait partie de la série d’articles sur la planification de l’implémentation de Power BI. Cette série se concentre principalement sur l’expérience Power BI au sein de Microsoft Fabric. Pour une introduction à la série, consultez Planification de la mise en œuvre de Power BI.
La préparation des données (parfois appelée ETL, qui est un acronyme pour les activités d’extraction, de transformation et de charge) implique souvent un effort important. Le temps, la compétence et l’effort impliqués dans la collecte, le nettoyage, la combinaison et l’enrichissement des données dépendent de la qualité et de la structure des données sources.
L’investissement de temps et d’efforts dans la préparation centralisée des données permet :
- d’améliorer la réutilisation et de gagner une valeur maximale à partir des efforts de préparation des données ;
- d’améliorer la possibilité de fournir des données cohérentes à plusieurs équipes ;
- de réduire le niveau d’effort requis par d’autres créateurs de contenu ;
- d’effectuer une mise à l’échelle et un niveau de performance.
Le scénario d’utilisation de la préparation des données avancée s’étend sur le scénario de préparation des données libre-service. La préparation avancée des données consiste à augmenter la réutilisation du flux de données par plusieurs utilisateurs dans différentes équipes et pour différents cas d’usage.
Les espaces de travail distincts, organisés à des fins de flux de données, sont utiles lorsque la sortie du flux de données est fournie à plusieurs créateurs de modèles sémantiques, en particulier lorsqu’ils se trouvent sur différentes équipes de l’organisation. Les espaces de travail distincts sont également utiles pour gérer les rôles de sécurité lorsque les personnes qui créent et gèrent des flux de données sont différentes de celles qui les consomment.
Notes
Le scénario de préparation avancée des données est le deuxième des scénarios de préparation des données. Ce scénario s’appuie sur ce qui peut être fait avec des flux de données centralisés, comme décrit dans le scénario de préparation des données en libre-service .
Le scénario de préparation avancée des données est l’un des scénarios du décisionnel en libre-service. Toutefois, un membre d’une équipe centralisée peut utiliser les techniques d’une manière similaire à ce qui est décrit dans le scénario du décisionnel en libre-service managé. Pour obtenir la liste complète des scénarios libre-service, consultez l’article Scénarios d’utilisation de Power BI.
Par souci de concision, certains aspects décrits dans la rubrique Scénarios de collaboration et de distribution de contenu ne sont pas abordés dans cet article. Pour une couverture complète, lisez d’abord ces articles.
Schéma du scénario
Conseil
Nous vous recommandons de consulter le scénario d’utilisation de la préparation des données en libre-service si vous n’êtes pas familiarisé avec celui-ci. Le scénario avancé de préparation des données en libre-service s’appuie sur ce scénario.
Le focus de ce scénario de préparation avancée des données est le suivant :
- Utilisation de flux de données distincts en fonction de l’objectif : mise en lots, transformation ou finale. Nous vous recommandons d’utiliser des blocs de génération composables pour obtenir une réutilisation accrue, dans différentes combinaisons et prendre en charge des exigences spécifiques de l’utilisateur. Les blocs de génération composables sont décrits plus loin dans cet article.
- Utilisation d’espaces de travail distincts qui prennent en charge les créateurs ou les consommateurs de flux de données. Les modélisateurs de données, qui consomment des flux de données, peuvent se trouver dans différentes équipes et/ou avoir des cas d’utilisation différents.
- Utilisation de tables liées (également appelées entités liées), tables calculées (également appelées entités calculées) et moteur de calcul amélioré.
Remarque
Parfois, les termes modèle sémantique et modèle de données sont utilisés de manière interchangeable. Généralement, du point de vue du service Power BI, on parle de modèle sémantique. Du point de vue du développement, c’est le terme modèle de données (ou simplement modèle) qui est employé. Dans cet article, les deux termes ont le même sens. De même, un créateur de modèle sémantique et un modélisateur de données ont la même signification.
Le diagramme suivant présente une vue d’ensemble de haut niveau des actions les plus courantes de l’utilisateur et des composants Power BI qui prennent en charge le scénario de préparation des données.
Conseil
Nous vous encourageons à télécharger le diagramme de scénario si vous souhaitez l’incorporer dans votre présentation, documentation ou billet de blog ou encore l’imprimer en tant qu’affiche murale. Étant donné qu’il s’agit d’une image SVG (Scalable Vector Graphics), vous pouvez la mettre à l’échelle vers le haut ou vers le bas sans aucune perte de qualité.
Le diagramme de scénario décrit les actions utilisateur, outils et fonctionnalités qui suivent :
Item | Description |
---|---|
Le créateur de flux de données développe une collection de tables au sein d’un flux de données. Pour un jeu de données destiné à être réutilisé, il est courant (mais pas obligatoire) que le créateur appartienne à une équipe centralisée qui assiste les utilisateurs au-delà des frontières de l’organisation (comme le service informatique, le décisionnel d’entreprise ou le centre d’excellence). | |
Le modèle de données se connecte aux données d’une ou plusieurs sources de données. | |
Certaines sources de données peuvent nécessiter une passerelle de données locale ou une passerelle de réseau virtuel pour l’actualisation des données, comme celles qui résident dans un réseau d’organisation privé. Ces passerelles sont utilisées pour créer le flux de données dans Power Query Online et actualiser le flux de données. | |
Tous les espaces de travail impliqués ont leur mode de licence défini sur capacité Fabric, capacité Premium, Premium par utilisateurou Embedded. Ces modes de licence permettent d’utiliser des tables liées et des tables calculées entre les espaces de travail, qui sont nécessaires dans ce scénario. | |
Les créateurs de flux de données développent des flux de données à l’aide de Power Query Online, qui est une version web de Power Query. | |
Un flux de données intermédiaire est créé dans un espace de travail dédié à la gestion centralisée des flux de données. Un flux de données intermédiaire copie les données brutes telles qu’elles proviennent de la source. Peu, le cas échéant, les transformations sont appliquées. | |
Un flux de données de transformation (également appelé flux de données nettoyé) est créé dans le même espace de travail. Il source des données à l’aide de tables liées vers le flux de données de mise en lots. La ou les tables calculées comprennent des étapes de transformation qui préparent, nettoient et réorganisent les données. | |
Les créateurs de flux de données ont accès à la gestion du contenu dans l’espace de travail dédié à la gestion centralisée des flux de données. | |
Un ou plusieurs autres espaces de travail sont destinés à fournir l’accès au flux de données final, qui fournit des données prêtes pour la production aux modèles de données. | |
Le flux de données final est créé dans un espace de travail disponible pour les modélisateurs de données. Il source des données à l’aide de tables liées vers le flux de données de transformation. Les tables calculées représentent la sortie préparée visible par les modélisateurs de données qui ont accordé le rôle visionneuse d’espace de travail. | |
Les créateurs de modèles sémantiques (qui consomment la sortie du flux de données) ont un accès de visualisation à l'espace de travail qui contient la sortie finale du flux de données. Les créateurs de flux de données ont également accès à la gestion et à la publication du contenu dans l’espace de travail (non représenté dans le diagramme de scénario). | |
Les créateurs de modèles sémantiques utilisent le flux de données final comme source de données lors du développement d'un modèle de données dans Power BI Desktop. Lorsqu'il est prêt, le créateur du modèle sémantique publie le fichier Power BI Desktop (.pbix) qui contient le modèle de données sur le service Power BI (non représenté dans le diagramme de scénario). | |
Les administrateurs de structure gèrent les paramètres dans le portail d’administration. | |
Dans le portail d’administration, les administrateurs Power BI peuvent configurer connexions Azure pour stocker des données de flux de données dans leur compte Azure Data Lake Storage Gen2 (ADLS Gen2 ). Les paramètres incluent l’attribution d’un compte de stockage au niveau de l’abonné et l’activation des autorisations de stockage au niveau de l’espace de travail. | |
Par défaut, les flux de données stockent les données à l’aide du stockage interne géré par le service Power BI. Si vous le souhaitez, la sortie des données par le flux de données peut être stockée dans le compte ADLS Gen2 de l’organisation. | |
Les administrateurs de structure supervisent et surveillent l’activité dans le portail Fabric. |
Points clés
Voici quelques points clés à signaler concernant le scénario de la préparation avancée des données.
Dataflows
Un flux de données comprend une collection de tables (également appelées entités). Chaque table est définie par une requête, qui contient les étapes de préparation des données nécessaires pour charger la table avec des données. Tout le travail de création d’un flux de données est effectué dans Power Query Online. Vous pouvez créer un flux de données dans plusieurs produits, notamment Power Apps, Dynamics 365 Customer Insights et Power BI.
Notes
Vous ne pouvez pas créer de flux de données dans un espace de travail personnel dans le service Power BI.
Types de flux de données
L’utilisation de blocs de génération composables est un principe de conception qui vous permet de gérer, déployer et sécuriser les composants système, puis de les utiliser dans différentes combinaisons. La création de flux de données modulaires, autonomes et spécifiques à un objectif est une bonne pratique. Ils aident à réutiliser les données et à mettre à l’échelle l’entreprise. Les flux de données modulaires sont également plus faciles à gérer et à tester.
Trois types de flux de données sont affichés dans le diagramme de scénario : flux de données de mise en lots, flux de données de transformation et flux de données final.
Flux de données de mise en lots
Un flux de données de mise en lots (parfois appelé flux de données d’extraction de données) copie les données brutes telles qu’elles proviennent de la source. L’extraction des données brutes avec une transformation minimale signifie que les flux de données de transformation en aval (décrits ci-après) peuvent utiliser le flux de données de mise en lots comme source. Cette modularité est utile lors de :
- L’accès à une source de données est limité à des fenêtres de temps limitées et/ou à quelques utilisateurs.
- La cohérence temporelle est souhaitée pour garantir que tous les flux de données en aval (et les modèles sémantiques associés) fournissent simultanément des données extraites de la source de données.
- La réduction du nombre de requêtes soumises à la source de données est nécessaire en raison de restrictions du système source ou de sa capacité à prendre en charge les requêtes analytiques.
- Une copie des données sources est utile pour les processus de rapprochement et les vérifications de qualité des données.
Flux de données de transformation
Un flux de données de transformation (parfois appelé flux de données nettoyé) source ses données à partir de tables liées qui se connectent au flux de données de mise en lots. Il est recommandé de séparer les transformations du processus d’extraction de données.
Un flux de données de transformation comprend toutes les étapes de transformation nécessaires pour préparer et restructurer les données. Toutefois, il existe toujours un focus sur la réutilisation au niveau de cette couche pour garantir que le flux de données convient à plusieurs cas d’utilisation et à des fins multiples.
Flux de données final
Un flux de données final représente la sortie préparée. Certaines transformations supplémentaires peuvent se produire en fonction du cas d’usage et de l’objectif. Pour l’analytique, une table de schémas en étoile (dimension ou fait) est la conception préférée du flux de données final.
Les tables calculées sont visibles par les modélisateurs de données auxquels le rôle visionneuse d’espace de travail est accordé. Ce type de table est décrit dans les types de tables de flux de données ci-dessous.
Notes
Les lacs de données ont souvent des zones comme le bronze, l’argent et l’or. Les trois types de flux de données représentent un modèle de conception similaire. Pour prendre les meilleures décisions possibles en matière d’architecture des données, réfléchissez à la personne qui conservera les données, à l’utilisation attendue des données et au niveau de compétence requis par les utilisateurs qui accèdent aux données.
Espaces de travail pour les flux de données
Si vous deviez créer tous les flux de données dans un seul espace de travail, cela limiterait considérablement l’étendue de la réutilisation. L’utilisation d’un seul espace de travail limite également les options de sécurité disponibles lors de la prise en charge de plusieurs types d’utilisateurs entre les équipes et/ou pour différents cas d’usage. Nous vous recommandons d’utiliser plusieurs espaces de travail. Ils offrent une meilleure flexibilité lorsque vous avez besoin de prendre en charge les créateurs en libre-service de divers domaines de l’organisation.
Les deux types d’espaces de travail présentés dans le diagramme de scénario sont les suivants :
- Espace de travail 1 : Il stocke des flux de données gérés de manière centralisée (parfois appelé espace de travail back-end). Il contient à la fois les flux de données de mise en lots et de transformation, car ils sont gérés par les mêmes personnes. Les créateurs de flux de données proviennent souvent d’une équipe centralisée, telle que l’informatique, le décisionnel ou le Centre d’excellence. Ils doivent être attribués au rôle administrateur, membre ou contributeur de l’espace de travail.
- Espace de travail 2 : Il stocke et remet la sortie finale du flux de données aux consommateurs des données (parfois appelée espace de travail utilisateur). Les créateurs de modèles sémantiques sont souvent des analystes en libre-service, des utilisateurs expérimentés ou des ingénieurs de données citoyens. Ils doivent être attribués au rôle de visionneuse d’espace de travail, car ils doivent uniquement consommer la sortie du flux de données final. Pour prendre en charge les créateurs de modèles sémantiques de différents domaines de l'organisation, vous pouvez créer de nombreux espaces de travail comme celui-ci, en fonction des cas d'utilisation et des besoins de sécurité.
Conseil
Nous vous recommandons d'examiner les moyens de prendre en charge les créateurs de modèles sémantiques, comme décrit dans le scénario d'utilisation de la préparation de données en libre-service. Il est important de comprendre que les créateurs de modèles sémantiques peuvent toujours utiliser toutes les fonctionnalités de Power Query dans Power BI Desktop. Ils peuvent choisir d’ajouter des étapes de requête pour transformer davantage les données de flux de données ou fusionner la sortie du flux de données avec d’autres sources.
Types de tables de flux de données
Trois types de tables de flux de données (également appelés entités) sont représentés dans le diagramme de scénario.
- Table standard : interroge une source de données externe, telle qu’une base de données. Dans le diagramme de scénario, les tables standard sont représentées dans le flux de données de mise en lots.
- Table liée : référence une table à partir d’un autre flux de données. Une table liée ne duplique pas les données. Elle permet plutôt la réutilisation d’une table standard plusieurs fois à plusieurs fins. Les tables liées ne sont pas visibles par les visionneuses d’espace de travail, car elles héritent des autorisations du flux de données d’origine. Dans le diagramme de scénario, les tables liées sont représentées deux fois :
- Dans le flux de données de transformation pour accéder aux données dans le flux de données de mise en lots.
- Dans le flux de données final pour accéder aux données dans le flux de données de transformation.
- Table calculée : effectue des calculs supplémentaires à l’aide d’un autre flux de données comme source. Les tables calculées permettent de personnaliser la sortie selon les besoins pour les cas d’usage individuels. Dans le diagramme de scénario, les tables calculées sont représentées deux fois :
- Dans le flux de données de transformation pour effectuer des transformations courantes.
- Dans le flux de données final pour fournir la sortie aux créateurs de modèles sémantiques. Étant donné que les tables calculées conservent à nouveau les données (après l’actualisation du flux de données), les modélisateurs de données peuvent accéder aux tables calculées dans le flux de données final. Dans ce cas, les modélisateurs de données doivent disposer d’un accès avec le rôle visionneuse d’espace de travail.
Notes
Il existe de nombreuses techniques, modèles et meilleures pratiques de conception, les prenant en charge du libre-service à l’adaptation au monde de l’entreprise. En outre, les flux de données d’un espace de travail dont le mode de licence est défini sur Premium par utilisateur ou Premium par capacité peuvent bénéficier de fonctionnalités avancées. Les tables liées et les tables calculées (également appelées entités) sont deux fonctionnalités avancées qui sont essentielles pour faciliter la réutilisation des flux de données.
Moteur de calcul avancé
Le moteur de calcul amélioré est une fonctionnalité avancée disponible avec Power BI Premium.
Important
Cet article fait parfois référence à Power BI Premium ou à ses abonnements de capacité (SKU P). Sachez que Microsoft regroupe actuellement des options d’achat et met hors service les SKU Power BI Premium par capacité. Les clients nouveaux et existants doivent plutôt envisager l’achat d’abonnements de capacité Fabric (SKU F).
Pour plus d’informations, consultez Importante mise à jour à venir des licences Power BI Premium et FAQ sur Power BI Premium.
Le moteur de calcul amélioré améliore le niveau de performance des tables liées (dans le même espace de travail) qui référencent (lien vers) le flux de données. Pour bénéficier au maximum de l’avantage du moteur de calcul amélioré :
- Fractionnez les flux de données de mise en lots et de transformation.
- Utilisez le même espace de travail pour stocker les flux de données de mise en lots et de transformation.
- Appliquez des opérations complexes qui peuvent interroger le pliage tôt dans les étapes de requête. La hiérarchisation des opérations pliables peut vous aider à obtenir les meilleures performances d’actualisation.
- Utilisez l’actualisation incrémentielle pour réduire les durées d’actualisation et la consommation des ressources.
- Effectuez des tests tôt et fréquemment pendant la phase de développement.
Actualisation du flux de données et du modèle sémantique
Un flux de données est une source de données pour les modèles sémantiques. Dans la plupart des cas, plusieurs planifications d'actualisation des données sont impliquées : une pour chaque flux de données et une pour chaque modèle sémantique. Alternativement, il est possible d'utiliser DirectQuery du modèle sémantique vers le flux de données, ce qui nécessite Power BI Premium et le moteur de calcul amélioré (non représenté dans le diagramme de scénario).
Azure Data Lake Storage Gen2
Un compte ADLS Gen2 est un type spécifique de compte de stockage Azure sur lequel l’espace de noms hiérarchique est activé. ADLS Gen2 présente des avantages en matière de performances, de gestion et de sécurité pour l’exploitation des charges de travail analytiques. Par défaut, les flux de données Power BI utilisent un stockage interne, qui est un compte de lac de données intégré géré par le service Power BI. Si vous le souhaitez, les organisations peuvent apporter leur propre lac de données en se connectant à un compte ADLS Gen2 de leur organisation.
Voici quelques avantages de l’utilisation de votre propre lac de données :
- Les utilisateurs (ou processus) peuvent accéder directement aux données de flux de données stockées dans le lac de données. Cela est utile lorsque la réutilisation du flux de données se produit au-delà de Power BI. Par exemple, Azure Data Factory peut accéder aux données de flux de données.
- D’autres outils ou systèmes peuvent gérer les données dans le lac de données. Dans ce cas, Power BI peut consommer les données plutôt que de les gérer (non représentées dans le diagramme de scénario).
Lorsque vous utilisez des tables liées ou des tables calculées, assurez-vous que chaque espace de travail est affecté au même compte de stockage ADLS Gen2.
Notes
Les données de flux de données dans ADLS Gen2 sont stockées dans un conteneur spécifique à Power BI. Ce conteneur est représenté dans le diagramme du scénario d’utilisation de la préparation des données en libre-service.
Paramètres du portail d’administration
Il existe deux paramètres importants à gérer dans le portail Administrateur :
- Connexions Azure : la section Connexions Azure du portail Administrateur inclut un paramètre pour configurer une connexion à un compte ADLS Gen2. Ce paramètre permet à un administrateur Power BI d’apporter votre propre lac de données aux flux de données. Une fois configurés, les espaces de travail peuvent utiliser ce compte Lac de données pour le stockage.
- Stockage au niveau de l’espace de travail : Un administrateur Power BI peut définir des autorisations de stockage au niveau de l’espace de travail. Lorsqu’il est activé, ce paramètre permet aux administrateurs de l’espace de travail d’utiliser un compte de stockage différent de celui défini au niveau de l’abonné. L’activation de ce paramètre est utile pour les unités commerciales décentralisées qui gèrent leur propre lac de données dans Azure.
Configuration de la passerelle
En règle générale, une passerelle de données locale est nécessaire pour se connecter aux sources de données qui résident dans un réseau d’organisation privé ou dans un réseau virtuel.
Une passerelle de données est requise lors de :
- la création d’un flux de données dans Power Query Online qui se connecte aux données d’organisation privées ;
- l’actualisation d’un flux de données qui se connecte aux données d’organisation privées.
Conseil
lux de données nécessitent une passerelle de données centralisée en mode standard. Une passerelle en mode personnel n’est pas prise en charge lors de l’utilisation de flux de données.
Supervision du système
Le journal d’activité enregistre les activités utilisateur qui se produisent dans le service Power BI. Les administrateurs de Power BI peuvent utiliser les données du journal d’activité qui sont collectées pour effectuer un audit afin de les aider à comprendre les modèles d’utilisation et l’adoption. Le journal des activités est également précieux pour soutenir les efforts de gouvernance, les audits de sécurité et les exigences de conformité. Dans le scénario de préparation avancée des données, les données du journal d’activité sont utiles pour suivre la gestion et l’utilisation des flux de données.
Contenu connexe
Pour d’autres scénarios utiles qui vous aideront dans les décisions d’implémentation de Power BI, consultez l’article Scénarios d’utilisation de Power BI.