Meilleures pratiques pour réutiliser des flux de données dans des environnements et des espaces de travail

Cet article présente une collection de meilleures pratiques pour réutiliser le flux de données de manière efficace. Lisez cet article pour éviter les pièges de conception et les problèmes de performances potentiels lorsque vous développez des flux de données à réutiliser.

Séparer les flux de données de transformation de données des flux de données intermédiaires/d’extraction

Si un flux de données effectue toutes les actions, il est difficile de réutiliser ses tables dans d’autres flux de données ou à d’autres fins. Les meilleurs flux de données à réutiliser sont ceux qui effectuent seulement quelques actions. La création de flux de données spécialisés dans une tâche spécifique est l’une des meilleures façons de les réutiliser. Si vous disposez d’un ensemble de flux de données que vous utilisez comme flux de données intermédiaires, leur seule action consiste à extraire des données telles qu’elles proviennent du système source. Ces flux de données peuvent être réutilisés dans plusieurs autres flux de données.

Si vous avez des flux de données de transformation de données, vous pouvez les fractionner en flux de données qui effectuent des transformations courantes. Chaque flux de données ne peut effectuer que quelques actions. Ces quelques actions par flux de données garantissent que la sortie de ce flux de données est réutilisable par d’autres flux de données.

Dataflow doing only a few actions.

Image montrant des données extraites d’une source de données vers des dataflows intermédiaires, où les tables sont stockées dans Dataverse ou Azure Data Lake Storage. Ensuite, les données sont déplacées vers des flux de données de transformation, où les données sont transformées et converties en structure de data warehouse. Enfin, les données sont chargées dans un modèle sémantique Power BI.

Utiliser des espaces de travail multiples

Chaque espace de travail (ou environnement) est disponible uniquement pour les membres de cet espace de travail. Si vous générez tous vos flux de données dans un espace de travail, vous réduisez la réutilisation de vos flux de données. Vous pouvez utiliser des espaces de travail génériques pour les flux de données qui traitent des tables à l’échelle de l’entreprise. Vous pouvez également avoir un espace de travail pour les flux de données afin de traiter les tables de plusieurs services. Vous pouvez également disposer d’espaces de travail pour que les flux de données soient utilisés uniquement dans des services spécifiques.

Image showing the separate workspaces.

Définir les niveaux d’accès appropriés sur les espaces de travail

Pour accorder l’accès aux flux de données dans d’autres espaces de travail afin d’utiliser la sortie d’un flux de données dans un espace de travail, vous devez simplement leur accorder un accès Afficher dans l’espace de travail. Pour en savoir plus sur d’autres rôles dans un espace de travail Power BI, accédez aux rôles dans les nouveaux espaces de travail.

Screenshot showing how to access to the Power BI workspace.

Approbation sur le flux de données dans Power BI

Il peut y avoir de nombreux flux de données créés dans une organisation cliente, et il peut être difficile pour les utilisateurs de savoir quel flux de données est le plus fiable. Les auteurs d’un flux de données, ou les utilisateurs qui y ont accès à leur modification, peuvent approuver le flux de données à trois niveaux : aucune approbation, promu ou certifié.

Ces niveaux d’approbation aident les utilisateurs à trouver des flux de données fiables plus faciles et plus rapides. Le flux de données avec un niveau d’approbation supérieur apparaît en premier. L’administrateur Power BI peut déléguer la possibilité d’approuver des flux de données au niveau certifié à d’autres personnes. Plus d’informations : approbation et certification de contenu Power BI

Screenshot of the Power Query Navigator showing the promoted and certified endorsement labels on specific dataflows.

Séparation des tables dans plusieurs flux de données

Vous pouvez avoir plusieurs tables dans un même flux de données. L’une des raisons pour lesquelles vous pourriez diviser des tables en plusieurs flux de données est expliquée précédemment dans cet article, dans la partie sur la séparation des flux de données d’ingestion des données et des flux de données de transformation des données. Il existe une autre bonne raison d’avoir des tables dans plusieurs flux de données, en l’occurrence lorsque vous souhaitez une planification de rafraîchissement différente de celle d’autres tables.

Dans l’exemple illustré dans l’image suivante, la table de ventes doit être actualisée toutes les quatre heures. La table de dates doit être actualisée une seule fois par jour pour conserver l’enregistrement de date actuel mis à jour. Et une table de mappage de produit doit être actualisée une fois par semaine. Si vous disposez de toutes ces tables dans un flux de données, vous n’avez qu’une seule option d’actualisation pour elles. Toutefois, si vous fractionnez ces tables en plusieurs flux de données, vous pouvez planifier l’actualisation de chaque dataflow séparément.

Image showing dataflows with different schedules for the refresh.

Bons choix de table pour les tables de flux de données

Lorsque vous développez des solutions à l’aide de Power Query dans les outils de bureau, vous pouvez vous demander quelles tables sont de bons candidats à déplacer vers un dataflow ? Les meilleures tables à déplacer vers le flux de données sont celles qui doivent être utilisées dans plusieurs solutions, ou plusieurs environnements ou services. Par exemple, la table Date indiquée dans l’image suivante doit être utilisée dans deux fichiers Power BI distincts. Au lieu de dupliquer cette table dans chaque fichier, vous pouvez générer la table dans un flux de données en tant que table et la réutiliser dans ces fichiers Power BI.

Image showing a shared table used in a dataflow.