Power BI-gebruiksscenario's: Selfservice voor gegevensvoorbereiding

Notitie

Dit artikel maakt deel uit van de reeks artikelen over de implementatieplanning van Power BI. Deze reeks richt zich voornamelijk op de Power BI-workload in Microsoft Fabric. Zie de planning van de Power BI-implementatie voor een inleiding tot de reeks.

Gegevensvoorbereiding (ook wel ETL genoemd, een acroniem voor Extract, Transform en Load) omvat vaak een aanzienlijke hoeveelheid werk, afhankelijk van de kwaliteit en structuur van brongegevens. Het scenario voor het gebruik van selfservicegegevensvoorbereiding is gericht op de herbruikbaarheid van gegevensvoorbereidingsactiviteiten door bedrijfsanalisten. Het bereikt dit doel van hergebruik door het verplaatsen van het gegevensvoorbereidingswerk van Power Query (binnen afzonderlijke Power BI Desktop-bestanden) naar Power Query Online (met behulp van een Power BI-gegevensstroom). De centralisatie van de logica helpt bij het bereiken van één bron van de waarheid en vermindert het inspanningsniveau dat andere makers van inhoud nodig hebben.

Gegevensstromen worden gemaakt met behulp van Power Query Online in een van de verschillende hulpprogramma's: de Power BI-service, Power Apps of Dynamics 365 Customer Insights. Een gegevensstroom die in Power BI is gemaakt, wordt een analytische gegevensstroom genoemd. Gegevensstromen die in Power Apps zijn gemaakt, kunnen een van de volgende twee typen zijn: standaard of analytische gegevensstromen. In dit scenario wordt alleen aandacht besteed aan het gebruik van een Power BI-gegevensstroom die in de Power BI-service wordt gemaakt en beheerd.

Notitie

Het selfservicescenario voor gegevensvoorbereiding is een van de selfservice BI-scenario's. Zie het artikel over Power BI-gebruiksscenario's voor een volledige lijst met selfservicescenario's .

Voor de beknoptheid worden sommige aspecten die worden beschreven in het onderwerp over samenwerking en levering van inhoud niet behandeld in dit artikel. Lees eerst deze artikelen voor volledige dekking.

Scenariodiagram

In het volgende diagram ziet u een algemeen overzicht van de meest voorkomende gebruikersacties en Power BI-onderdelen die ondersteuning bieden voor selfservicegegevensvoorbereiding. De primaire focus is het maken van een gegevensstroom in Power Query Online die een gegevensbron wordt voor meerdere semantische modellen (voorheen gegevenssets genoemd). Het doel is voor veel semantische modellen om gebruik te maken van de gegevensvoorbereiding die eenmaal door de gegevensstroom wordt uitgevoerd.

Diagram shows self-service data preparation, which is about dataflows for centralizing data cleansing and transformation work. Items in the diagram are described in the table below.

Tip

We raden u aan het scenariodiagram te downloaden als u het wilt insluiten in uw presentatie, documentatie of blogbericht, of als een poster op een muur wilt afdrukken. Omdat het een SVG-afbeelding (Scalable Vector Graphics) is, kunt u deze omhoog of omlaag schalen zonder verlies van kwaliteit.

In het scenariodiagram ziet u de volgende gebruikersacties, hulpprogramma's en functies:

Artikel Beschrijving
Item 1. De maker van de gegevensstroom ontwikkelt een verzameling tabellen binnen een Power BI-gegevensstroom. Voor een gegevensstroom die is bedoeld voor hergebruik, is het gebruikelijk (maar niet vereist) dat de maker deel uitmaakt van een gecentraliseerd team dat gebruikers ondersteunt over de grenzen van de organisatie (zoals IT, Enterprise BI of Center of Excellence).
Item 2. De gegevensstroom maakt verbinding met gegevens uit een of meer gegevensbronnen.
Item 3. Voor sommige gegevensbronnen is mogelijk een on-premises gegevensgateway of VNet-gateway vereist voor gegevensvernieuwing, zoals gegevensbronnen die zich in een particulier organisatienetwerk bevinden. Deze gateways worden beide gebruikt voor het ontwerpen van de gegevensstroom in Power Query Online, een webversie van Power Query en het vernieuwen van de gegevensstroom.
Item 4. Gegevensstromen worden ontwikkeld met behulp van Power Query Online. De vertrouwde Power Query-interface in Power Query Online maakt de overgang van Power BI Desktop eenvoudig.
Item 5. De gegevensstroom wordt opgeslagen als een item in een werkruimte die is toegewezen aan het opslaan en beveiligen van gegevensstromen. Een vernieuwingsschema voor gegevensstromen is vereist om de gegevens actueel te houden (niet weergegeven in het scenariodiagram).
Item 6. De gegevensstroom kan opnieuw worden gebruikt als een gegevensbron door makers van inhoud en door andere semantische modellen die zich in verschillende werkruimten kunnen bevinden.
Item 7. De maker van het semantische model ontwikkelt een nieuw gegevensmodel met behulp van Power BI Desktop. De maker van het semantische model kan gebruikmaken van de volledige mogelijkheden van Power Query in Power BI Desktop. Ze kunnen eventueel andere querystappen toepassen om de gegevensstroomgegevens verder te transformeren of de uitvoer van de gegevensstroom samen te voegen.
Item 8. Wanneer u klaar bent, publiceert de maker van het semantische model het Power BI Desktop-bestand (.pbix) dat het gegevensmodel bevat naar de Power BI-service. Vernieuwen voor het semantische model wordt afzonderlijk beheerd van de gegevensstroom (niet weergegeven in het scenariodiagram).
Item 9. Andere selfservice-semantische modelmakers kunnen nieuwe gegevensmodellen maken in Power BI Desktop door de gegevensstroom als gegevensbron te gebruiken.
Item 10. In de Beheer-portal kunnen Power BI-beheerders Azure-verbindingen instellen om gegevensstroomgegevens op te slaan in hun AdLS Gen2-account (Azure Data Lake Storage Gen2). Instellingen het toewijzen van een opslagaccount op tenantniveau en het inschakelen van opslagmachtigingen op werkruimteniveau.
Item 11. Power BI-beheerders beheren instellingen in de Beheer-portal.
Item 12. Gegevensstromen slaan standaard gegevens op met behulp van interne opslag die wordt beheerd door de Power BI-service. Optioneel kan gegevensuitvoer door de gegevensstroom worden opgeslagen in het ADLS Gen2-account van de organisatie. Dit type opslag wordt ook wel Bring Your Own Data Lake genoemd. Een voordeel van het opslaan van gegevensstroomgegevens in de Data Lake is dat deze kan worden geopend en gebruikt door andere BI-hulpprogramma's.
Item 13. Gegevensstroomgegevens in ADLS Gen2 worden opgeslagen in een Power BI-specifieke container die bekend staat als bestandssysteem. In deze container bestaat er een map voor elke werkruimte. Er wordt een submap gemaakt voor elke gegevensstroom, evenals voor elke tabel. Power BI genereert een momentopname telkens wanneer de gegevensstroomgegevens worden vernieuwd. Momentopnamen zijn zelfbeschrijfd, bestaande uit metagegevens en gegevensbestanden.
Item 14. Azure-beheerders beheren machtigingen voor het ADLS Gen2-account van de organisatie.
Item 15. Power BI-beheerders houden toezicht op en bewaken van activiteiten in de Power BI-service.

Tip

U wordt aangeraden ook het gebruiksscenario voor geavanceerde gegevensvoorbereiding te bekijken. Het bouwt voort op concepten die in dit scenario zijn geïntroduceerd.

Belangrijkste punten

Hier volgen enkele belangrijke punten die u moet benadrukken over het selfservicescenario voor gegevensvoorbereiding.

Gegevensstromen

Een gegevensstroom bestaat uit een verzameling tabellen (ook wel entiteiten genoemd). Al het werk om een gegevensstroom te maken, wordt uitgevoerd in Power Query Online. U kunt gegevensstromen maken in meerdere producten, waaronder Power Apps, Dynamics 365 Customer Insights en Power BI.

Notitie

U kunt geen gegevensstromen maken in een persoonlijke werkruimte in de Power BI-service.

Semantische modelmakers ondersteunen

In het scenariodiagram ziet u hoe u een Power BI-gegevensstroom gebruikt om voorbereide gegevens te leveren aan andere selfservice-semantische modelmakers.

Notitie

Semantisch model gebruikt de gegevensstroom als gegevensbron. Een rapport kan niet rechtstreeks verbinding maken met een gegevensstroom.

Hier volgen enkele voordelen van het gebruik van Power BI-gegevensstromen:

  • Semantische modelmakers gebruiken dezelfde vertrouwde Power Query-interface als in Power BI Desktop.
  • De logica voor gegevensvoorbereiding en gegevenstransformatie die is gedefinieerd door een gegevensstroom, kan vaak opnieuw worden gebruikt omdat deze is gecentraliseerd.
  • Wanneer logicawijzigingen voor gegevensvoorbereiding worden aangebracht in de gegevensstroom, is het mogelijk dat er geen afhankelijke gegevensmodellen hoeven te worden bijgewerkt. Als u kolommen verwijdert of de naam ervan wijzigt of kolomgegevenstypen wijzigt, moet u afhankelijke gegevensmodellen bijwerken.
  • Vooraf voorbereide gegevens kunnen eenvoudig beschikbaar worden gesteld aan semantische power BI-modelmakers. Hergebruik is met name handig voor veelgebruikte tabellen, met name dimensietabellen, zoals datum, klant en product.
  • Het inspanningsniveau dat is vereist door semantische modelmakers, wordt verminderd omdat het werk voor gegevensvoorbereiding is losgekoppeld van het gegevensmodelleringswerk.
  • Minder semantische modelmakers hebben directe toegang tot bronsystemen nodig. Bronsystemen kunnen complex zijn om query's uit te voeren en kunnen gespecialiseerde toegangsmachtigingen vereisen.
  • Het aantal vernieuwingen dat op bronsystemen wordt uitgevoerd, wordt verminderd omdat semantische modelvernieuwingen verbinding maken met gegevensstromen en niet met de bronsystemen waaruit gegevensstromen worden geëxtraheerd.
  • Gegevensstromen vertegenwoordigen een momentopname in de tijd en bevorderen consistentie wanneer ze worden gebruikt door veel semantische modellen.
  • Het loskoppelen van gegevensvoorbereidingslogica in gegevensstromen kan helpen bij het verbeteren van het succes van het vernieuwen van semantische modellen. Als het vernieuwen van een gegevensstroom mislukt, worden semantische modellen vernieuwd met behulp van de laatste geslaagde gegevensstroomvernieuwing.

Tip

Maak gegevensstroomtabellen door ontwerpprincipes voor stervormige schema's toe te passen. Een stervormig schemaontwerp is geschikt voor het maken van semantische Power BI-modellen. Verfijn ook de uitvoer van de gegevensstroom om beschrijvende namen toe te passen en specifieke gegevenstypen te gebruiken. Deze technieken bevorderen consistentie in afhankelijke semantische modellen en helpt de hoeveelheid werk te verminderen die semantische modelmakers nodig hebben.

Flexibiliteit van Semantische modelmaker

Wanneer een maker van een semantisch model verbinding maakt met een gegevensstroom in Power BI Desktop, is de maker niet beperkt tot het gebruik van de exacte gegevensstroomuitvoer. Ze hebben nog steeds de volledige functionaliteit van Power Query die voor hen beschikbaar is. Deze functionaliteit is handig als extra werk voor gegevensvoorbereiding is vereist, of als de gegevens verdere transformatie vereisen.

Geavanceerde functies voor gegevensstromen

Er zijn veel ontwerptechnieken, patronen en aanbevolen procedures voor gegevensstromen die ze van selfservice naar bedrijfsklaar kunnen maken. Gegevensstromen in een werkruimte waarvoor de licentiemodus is ingesteld op Premium per gebruiker of Premium per capaciteit, kunnen profiteren van geavanceerde functies.

Notitie

Een van de geavanceerde functies is incrementeel vernieuwen voor gegevensstromen. Hoewel incrementeel vernieuwen voor semantische modellen een Power BI Pro-functie is, is incrementeel vernieuwen voor gegevensstromen een Premium-functie.

Zie het geavanceerde gebruiksscenario voor gegevensstromen voor meer informatie over geavanceerde functies voor gegevensstromen .

Gegevensstroom en semantisch model vernieuwen

Zoals eerder vermeld, is een gegevensstroom een bron van gegevens voor semantische modellen. In de meeste gevallen zijn er meerdere schema's voor het vernieuwen van gegevens betrokken: één voor de gegevensstroom en één voor elk semantisch model. U kunt ook DirectQuery van het semantische model gebruiken naar de gegevensstroom. Dit is een Premium-functie (niet weergegeven in het scenariodiagram).

Azure Data Lake Storage Gen2

In Microsoft Azure is een ADLS Gen2-account een specifiek type Azure Storage-account waarvoor de hiërarchische naamruimte is ingeschakeld. ADLS Gen2 heeft prestatie-, beheer- en beveiligingsvoordelen voor het uitvoeren van analytische workloads. Power BI-gegevensstromen maken standaard gebruik van interne opslag. Dit is een ingebouwd Data Lake-account dat wordt beheerd door de Power BI-service. Organisaties kunnen desgewenst hun eigen data lake meenemen door verbinding te maken met het ADLS Gen2-account van hun organisatie.

Hier volgen enkele voordelen van het gebruik van het Data Lake-account van de organisatie:

  • De gegevens die zijn opgeslagen door een Power BI-gegevensstroom, kunnen (optioneel) worden geopend vanuit de Data Lake door andere gebruikers of processen. Dit is handig wanneer gegevensstromen opnieuw worden gebruikt buiten Power BI. De gegevens kunnen bijvoorbeeld worden geopend door Azure Data Factory.
  • De gegevens in de data lake kunnen (optioneel) worden beheerd door andere hulpprogramma's of systemen. In dit geval kan Power BI de gegevens gebruiken in plaats van deze te beheren (niet weergegeven in het scenariodiagram).

Opslag op tenantniveau

De sectie Azure-verbindingen van de Beheer-portal bevat een instelling voor het configureren van een verbinding met een ADLS Gen2-account. Als u deze instelling configureert, kunt u uw eigen data lake gebruiken. Zodra de werkruimte is ingesteld, kunt u werkruimten instellen voor het gebruik van dat Data Lake-account.

Belangrijk

Het instellen van Azure-verbindingen betekent niet dat alle gegevensstromen in de Power BI-tenant standaard in dit account worden opgeslagen. Als u een expliciet opslagaccount (in plaats van interne opslag) wilt gebruiken, moet elke werkruimte specifiek zijn verbonden.

Het is essentieel om de Azure-verbindingen voor de werkruimte in te stellen voordat u gegevensstromen in de werkruimte maakt. Hetzelfde Azure-opslagaccount wordt gebruikt voor back-ups van semantische Power BI-modellen.

Opslag op werkruimteniveau

Een Power BI-beheerder kan een instelling configureren om opslagmachtigingen op werkruimteniveau toe te staan (in de sectie Azure-verbindingen van de Beheer-portal). Wanneer deze instelling is ingeschakeld, kunnen werkruimtebeheerders een ander opslagaccount gebruiken dan het account dat is gedefinieerd op tenantniveau. Het inschakelen van deze instelling is met name handig voor gedecentraliseerde bedrijfseenheden die hun eigen data lake in Azure beheren.

Notitie

De opslagmachtiging op werkruimteniveau in de Beheer-portal is van toepassing op alle werkruimten in de Power BI-tenant.

Common Data Model-indeling

De gegevens in een ADLS Gen2-account worden opgeslagen in de CDM-structuur (Common Data Model). De CDM-structuur is een indeling voor metagegevens die bepaalt hoe het zelfbeschrijfende schema, evenals de gegevens, wordt opgeslagen. De CDM-structuur maakt semantische consistentie mogelijk in een indeling die is gestandaardiseerd voor het delen van gegevens in verschillende toepassingen (niet weergegeven in het scenariodiagram).

Publiceren naar afzonderlijke werkruimten

Er zijn verschillende voordelen voor het publiceren van een gegevensstroom naar een werkruimte die losstaat van waar de afhankelijke semantische modellen worden opgeslagen. Een voordeel is duidelijkheid over wie verantwoordelijk is voor het beheren van welke typen inhoud (als u verschillende personen met verschillende verantwoordelijkheden hebt). Een ander voordeel is dat specifieke werkruimtemachtigingen kunnen worden toegewezen voor elk type inhoud.

Notitie

U kunt geen gegevensstromen maken in een persoonlijke werkruimte in de Power BI-service.

In het scenario voor geavanceerde gegevensvoorbereiding wordt beschreven hoe u meerdere werkruimten instelt om betere flexibiliteit te bieden bij het ondersteunen van selfservicemakers op ondernemingsniveau.

Gateway instellen

Normaal gesproken is een on-premises gegevensgateway vereist voor het maken van verbinding met gegevensbronnen die zich in een particulier organisatienetwerk of een virtueel netwerk bevinden.

Een gegevensgateway is vereist wanneer:

  • Een gegevensstroom ontwerpen in Power Query Online die verbinding maakt met persoonlijke organisatiegegevens.
  • Een gegevensstroom vernieuwen die verbinding maakt met persoonlijke organisatiegegevens.

Tip

Voor gegevensstromen is een gecentraliseerde gegevensgateway in de standaardmodus vereist. Een gateway in de persoonlijke modus wordt niet ondersteund bij het werken met gegevensstromen.

Systeemtoezicht

In het activiteitenlogboek worden gebruikersactiviteiten vastgelegd die plaatsvinden in de Power BI-service. Power BI-beheerders kunnen de verzamelde activiteitenlogboekgegevens gebruiken om controle uit te voeren om inzicht te krijgen in gebruikspatronen en acceptatie. Het activiteitenlogboek is ook waardevol voor het ondersteunen van governance-inspanningen, beveiligingscontroles en nalevingsvereisten. Met een selfservicescenario voor gegevensvoorbereiding is het met name handig om het gebruik van gegevensstromen bij te houden.

In het volgende artikel in de reeks vindt u meer informatie over het gebruiksscenario voor geavanceerde gegevensvoorbereiding .