Power BI-gebruiksscenario's: geavanceerde gegevensvoorbereiding
Notitie
Dit artikel maakt deel uit van de reeks artikelen over het plannen van power BI-implementaties . Zie Power BI-implementatieplanning voor een inleiding tot de reeks.
Gegevensvoorbereidingsactiviteiten (ook wel ETL genoemd, een acroniem voor Extraheren, Transformeren en Laden) vergen vaak een grote inspanning. De tijd, vaardigheid en inspanning voor het verzamelen, opschonen, combineren en verrijken van gegevens is afhankelijk van de kwaliteit en structuur van brongegevens.
Het investeren van tijd en moeite in gecentraliseerde gegevensvoorbereiding helpt bij het volgende:
- Verbeter de herbruikbaarheid en profiteer van maximale waarde van gegevensvoorbereidingsinspanningen.
- Verbeter de mogelijkheid om consistente gegevens te bieden aan meerdere teams.
- Verminder het inspanningsniveau dat andere makers van inhoud nodig hebben.
- Schaal en prestaties bereiken.
Het gebruiksscenario voor geavanceerde gegevensvoorbereiding is een uitbreiding op het selfservicescenario voor gegevensvoorbereiding . Geavanceerde gegevensvoorbereiding gaat over het vergroten van het hergebruik van gegevensstromen door meerdere gebruikers in verschillende teams en voor verschillende gebruiksvoorbeelden.
Afzonderlijke werkruimten, ingedeeld op doel van de gegevensstroom, zijn handig wanneer gegevensstroomuitvoer wordt geleverd aan meerdere makers van gegevenssets, met name wanneer ze zich in verschillende teams in de organisatie bevinden. Afzonderlijke werkruimten zijn ook handig voor het beheren van beveiligingsrollen wanneer de personen die gegevensstromen maken en beheren, verschillen van de personen die ze gebruiken.
Notitie
Het scenario voor geavanceerde gegevensvoorbereiding is het tweede van de scenario's voor gegevensvoorbereiding. Dit scenario bouwt voort op wat er kan worden gedaan met gecentraliseerde gegevensstromen, zoals beschreven in het selfservicescenario voor gegevensvoorbereiding .
Het geavanceerde scenario voor gegevensvoorbereiding is een van de selfservice-BI-scenario's. Een gecentraliseerd teamlid kan de technieken echter op dezelfde manier gebruiken als wat wordt beschreven in het beheerde selfservice-BI-scenario . Zie het artikel Power BI-gebruiksscenario's voor een volledige lijst met selfservicescenario's .
Kortheidshalve worden sommige aspecten die worden beschreven in het onderwerp scenario's voor samenwerking en levering van inhoud niet behandeld in dit artikel. Lees eerst deze artikelen voor volledige dekking.
Scenariodiagram
Tip
We raden u aan het gebruiksscenario voor selfservicegegevensvoorbereiding te bekijken als u er niet bekend mee bent. Het geavanceerde selfservicescenario voor gegevensvoorbereiding bouwt voort op dat scenario.
De focus van dit geavanceerde scenario voor gegevensvoorbereiding ligt op:
- Het gebruik van afzonderlijke gegevensstromen op basis van doel: fasering, transformatie of definitief. We raden u aan om samenstelbare bouwstenen te gebruiken om meer hergebruik te verkrijgen, in verschillende combinaties, ter ondersteuning van specifieke gebruikersvereisten. Composable bouwstenen worden verderop in dit artikel beschreven.
- Het gebruik van afzonderlijke werkruimten die ondersteuning bieden voor makers van gegevensstromen of gebruikers van gegevensstromen. Gegevensmodelleerders die gegevensstromen gebruiken, kunnen zich in verschillende teams bevinden en/of verschillende gebruiksscenario's hebben.
- Het gebruik van gekoppelde tabellen (ook wel gekoppelde entiteiten genoemd), berekende tabellen (ook wel berekende entiteiten genoemd) en de verbeterde rekenengine.
Notitie
Soms worden de termen gegevensset en gegevensmodel door elkaar gebruikt. Over het algemeen wordt dit vanuit een Power BI-service perspectief een gegevensset genoemd. Vanuit het oogpunt van ontwikkeling wordt dit een gegevensmodel (of kort gezegd een model ) genoemd. In dit artikel hebben beide termen dezelfde betekenis. Op dezelfde manier hebben een maker van gegevenssets en een gegevensmodeller dezelfde betekenis.
In het volgende diagram ziet u een overzicht op hoog niveau van de meest voorkomende gebruikersacties en Power BI-onderdelen die ondersteuning bieden voor het geavanceerde gegevensvoorbereidingsscenario.
In het scenariodiagram ziet u de volgende gebruikersacties, hulpprogramma's en functies:
Item | Beschrijving |
---|---|
![]() |
De maker van de gegevensstroom ontwikkelt een verzameling tabellen binnen een gegevensstroom. Voor een gegevensstroom die is bedoeld voor hergebruik, is het gebruikelijk (maar niet vereist) dat de maker deel uitmaakt van een gecentraliseerd team dat gebruikers over de grenzen van de organisatie ondersteunt (zoals IT, ENTERPRISE BI of het Center of Excellence). |
![]() |
De gegevensstroom maakt verbinding met gegevens uit een of meer gegevensbronnen. |
![]() |
Makers van gegevensstromen ontwikkelen gegevensstromen met behulp van Power Query Online, een webversie van Power Query. |
![]() |
Er wordt een faseringsgegevensstroom gemaakt in een werkruimte die is toegewezen aan het gecentraliseerd beheer van gegevensstromen. Een faseringsgegevensstroom kopieert de onbewerkte gegevens as-is uit de bron. Er worden slechts enkele transformaties toegepast. |
![]() |
Een transformatiegegevensstroom (ook wel opgeschoonde gegevensstroom genoemd) wordt in dezelfde werkruimte gemaakt. Er worden gegevens opgehaald met behulp van gekoppelde tabellen in de faseringsgegevensstroom. Berekende tabellen bevatten transformatiestappen voor het voorbereiden, opschonen en opnieuw vormgeven van de gegevens. |
![]() |
Makers van gegevensstromen hebben toegang tot het beheren van inhoud in de werkruimte die is toegewezen aan het gecentraliseerde beheer van gegevensstromen. |
![]() |
Er bestaan een of meer andere werkruimten die zijn bedoeld om toegang te bieden tot de uiteindelijke gegevensstroom, die gegevens levert die gereed zijn voor productie voor gegevensmodellen. |
![]() |
De uiteindelijke gegevensstroom wordt gemaakt in een werkruimte die beschikbaar is voor gegevensmodelleerders. Er worden gegevens opgehaald met behulp van gekoppelde tabellen in de transformatiegegevensstroom. Berekende tabellen vertegenwoordigen de voorbereide uitvoer die zichtbaar is voor gegevensmodelleerders aan wie de rol werkruimteviewer is toegewezen. |
![]() |
Makers van gegevenssets (die de uitvoer van de gegevensstroom gebruiken) hebben viewertoegang tot de werkruimte die de uiteindelijke uitvoer van de gegevensstroom bevat. Makers van gegevensstromen hebben ook toegang tot het beheren en publiceren van inhoud in de werkruimte (niet weergegeven in het scenariodiagram). |
![]() |
Voor alle betrokken werkruimten is de licentiemodus ingesteld op Premium per gebruiker, Premium per capaciteit of Embedded. Deze licentiemodi maken het gebruik van gekoppelde tabellen en berekende tabellen in werkruimten mogelijk, wat in dit scenario vereist is. |
![]() |
Makers van gegevenssets gebruiken de uiteindelijke gegevensstroom als gegevensbron bij het ontwikkelen van een gegevensmodel in Power BI Desktop. Wanneer de maker van de gegevensset klaar is, publiceert hij het Power BI Desktop-bestand (.pbix) met het gegevensmodel naar de Power BI-service (niet weergegeven in het scenariodiagram). |
![]() |
Power BI-beheerders beheren instellingen in de Beheer-portal. |
![]() |
In de Beheer-portal kunnen Power BI-beheerders Azure-verbindingen configureren om gegevensstromen op te slaan in hun Azure Data Lake Storage Gen2-account (ADLS Gen2). Instellingen omvatten het toewijzen van een opslagaccount op tenantniveau en het inschakelen van opslagmachtigingen op werkruimteniveau. |
![]() |
Standaard slaan gegevens in gegevensstromen op met behulp van interne opslag die wordt beheerd door de Power BI-service. Optioneel kan gegevensuitvoer door de gegevensstroom worden opgeslagen in het ADLS Gen2-account van de organisatie. |
![]() |
Als u verbinding wilt maken met gegevensbronnen die zich in een particulier organisatienetwerk bevinden, is een on-premises gegevensgateway vereist voor het ontwerpen van de gegevensstroom in Power Query Online. De gegevensgateway wordt ook gebruikt voor het vernieuwen van de gegevensstroom. |
![]() |
Power BI-beheerders houden toezicht op en bewaken activiteiten in de Power BI-service. |
Belangrijkste punten
Hier volgen enkele belangrijke punten die u moet benadrukken over het scenario voor geavanceerde gegevensvoorbereiding.
Gegevensstromen
Een gegevensstroom bestaat uit een verzameling tabellen (ook wel entiteiten genoemd). Elke tabel wordt gedefinieerd door een query, die de gegevensvoorbereidingsstappen bevat die nodig zijn om de tabel met gegevens te laden. Al het werk voor het maken van een gegevensstroom wordt uitgevoerd in Power Query Online. U kunt een gegevensstroom maken in meerdere producten, waaronder Power Apps, Dynamics 365 Customer Insights en Power BI.
Notitie
U kunt geen gegevensstromen maken in een persoonlijke werkruimte in de Power BI-service.
Typen gegevensstromen
Het gebruik van samenstelbare bouwstenen is een ontwerpprincipe waarmee u systeemonderdelen kunt beheren, implementeren en beveiligen, en deze vervolgens in verschillende combinaties kunt gebruiken. Het maken van modulaire, op zichzelf staande gegevensstromen die specifiek zijn voor een doel is een best practice. Ze helpen bij het hergebruik van gegevens en de schaal van de onderneming. Modulaire gegevensstromen zijn ook eenvoudiger te beheren en te testen.
In het scenariodiagram worden drie typen gegevensstromen weergegeven: faseringsgegevensstroom, transformatiegegevensstroom en uiteindelijke gegevensstroom.
Faseringsgegevensstroom
Met een faseringsgegevensstroom (ook wel gegevensextractiegegevensstroom genoemd) worden onbewerkte gegevens uit de bron gekopieerd. Als de onbewerkte gegevens worden geëxtraheerd met minimale transformatie, betekent dit dat downstreamtransformatiegegevensstromen (zoals hieronder wordt beschreven) de faseringsgegevensstroom als bron kunnen gebruiken. Deze modulariteit is handig in de volgende gevallen:
- Toegang tot een gegevensbron is beperkt tot beperkte tijdvensters en/of tot enkele gebruikers.
- Tijdelijke consistentie is gewenst om ervoor te zorgen dat alle downstreamgegevensstromen (en gerelateerde gegevenssets) tegelijkertijd gegevens leveren die uit de gegevensbron zijn geëxtraheerd.
- Het verminderen van het aantal query's dat naar de gegevensbron wordt verzonden, is noodzakelijk vanwege beperkingen van het bronsysteem of de mogelijkheid om analytische query's te ondersteunen.
- Een kopie van de brongegevens is handig voor afstemmingsprocessen en verificaties van de gegevenskwaliteit.
Transformatiegegevensstroom
Een transformatiegegevensstroom (ook wel een opgeschoonde gegevensstroom genoemd) haalt de gegevens op uit gekoppelde tabellen die verbinding maken met de faseringsgegevensstroom. Het is een best practice om transformaties te scheiden van het gegevensextractieproces.
Een transformatiegegevensstroom bevat alle transformatiestappen die nodig zijn om de gegevens voor te bereiden en te herstructureren. Er is echter nog steeds aandacht voor herbruikbaarheid in deze laag om ervoor te zorgen dat de gegevensstroom geschikt is voor meerdere gebruiksscenario's en doeleinden.
Definitieve gegevensstroom
Een uiteindelijke gegevensstroom vertegenwoordigt de voorbereide uitvoer. Er kunnen enkele aanvullende transformaties plaatsvinden op basis van de use-case en het doel. Voor analyse is een star schematabel (dimensie of feit) het voorkeursontwerp van de uiteindelijke gegevensstroom.
Berekende tabellen zijn zichtbaar voor gegevensmodelleerders aan wie de rol werkruimteviewer is toegewezen. Dit tabeltype wordt beschreven in het onderwerp typen gegevensstroomtabellen hieronder.
Notitie
Data lakes hebben vaak zones, zoals brons, zilver en goud. De drie typen gegevensstromen vertegenwoordigen een vergelijkbaar ontwerppatroon. Als u de best mogelijke beslissingen over de gegevensarchitectuur wilt nemen, moet u nadenken over wie de gegevens gaat onderhouden, het verwachte gebruik van de gegevens en het vaardigheidsniveau dat nodig is voor personen die toegang hebben tot de gegevens.
Werkruimten voor gegevensstromen
Als u alle gegevensstromen in één werkruimte zou maken, zou dit de mate van hergebruik aanzienlijk beperken. Het gebruik van één werkruimte beperkt ook de beschikbare beveiligingsopties bij het ondersteunen van meerdere typen gebruikers in teams en/of voor verschillende gebruiksscenario's. U wordt aangeraden meerdere werkruimten te gebruiken. Ze bieden meer flexibiliteit wanneer u selfservicemakers uit verschillende gebieden van de organisatie moet ondersteunen.
De twee typen werkruimten die in het scenariodiagram worden weergegeven, zijn onder andere:
- Werkruimte 1: Het slaat centraal beheerde gegevensstromen op (ook wel een back-endwerkruimte genoemd). Het bevat zowel de faserings- als transformatiegegevensstromen, omdat ze door dezelfde personen worden beheerd. Makers van gegevensstromen maken vaak deel uit van een gecentraliseerd team, zoals IT, BI of het Center of Excellence. Ze moeten worden toegewezen aan de rol van werkruimtebeheerder, lid of inzender .
- Werkruimte 2: De uiteindelijke gegevensstroom wordt opgeslagen en geleverd aan gebruikers van de gegevens (ook wel een gebruikerswerkruimte genoemd). Makers van gegevenssets zijn vaak selfserviceanalisten, power users of citizen data engineers. Ze moeten worden toegewezen aan de rol van werkruimteviewer , omdat ze alleen de uitvoer van de uiteindelijke gegevensstroom hoeven te gebruiken. Om makers van gegevenssets uit verschillende gebieden van de organisatie te ondersteunen, kunt u talloze werkruimten zoals deze maken op basis van gebruiksvoorbeelden en beveiligingsbehoeften.
Tip
We raden u aan manieren te bekijken om makers van gegevenssets te ondersteunen , zoals beschreven in het gebruiksscenario voor selfservicegegevensvoorbereiding . Het is belangrijk om te begrijpen dat makers van gegevenssets nog steeds de volledige mogelijkheden van Power Query binnen Power BI Desktop kunnen gebruiken. Ze kunnen ervoor kiezen om querystappen toe te voegen om de gegevensstroomgegevens verder te transformeren of de gegevensstroomuitvoer samen te voegen met andere bronnen.
Typen gegevensstroomtabellen
In het scenariodiagram worden drie typen gegevensstroomtabellen (ook wel entiteiten genoemd) weergegeven.
- Standaardtabel: Query's uitvoeren op een externe gegevensbron, zoals een database. In het scenariodiagram worden standaardtabellen weergegeven in de faseringsgegevensstroom.
- Gekoppelde tabel: Verwijst naar een tabel uit een andere gegevensstroom. In een gekoppelde tabel worden de gegevens niet gedupliceerd. In plaats daarvan kan een standaardtabel meerdere keren voor meerdere doeleinden opnieuw worden gebruikt. Gekoppelde tabellen zijn niet zichtbaar voor werkruimteviewers, omdat ze machtigingen overnemen van de oorspronkelijke gegevensstroom. In het scenariodiagram worden gekoppelde tabellen twee keer weergegeven:
- In de transformatiegegevensstroom voor toegang tot de gegevens in de faseringsgegevensstroom.
- In de uiteindelijke gegevensstroom voor toegang tot de gegevens in de transformatiegegevensstroom.
- Berekende tabel: Voert aanvullende berekeningen uit met behulp van een andere gegevensstroom als bron. Met berekende tabellen kunt u de uitvoer naar behoefte aanpassen voor afzonderlijke gebruiksvoorbeelden. In het scenariodiagram worden berekende tabellen tweemaal weergegeven:
- In de transformatiegegevensstroom voor het uitvoeren van algemene transformaties.
- In de uiteindelijke gegevensstroom voor het leveren van uitvoer aan makers van gegevenssets. Omdat berekende tabellen de gegevens opnieuw behouden (na het vernieuwen van de gegevensstroom), hebben gegevensmodelleerders toegang tot de berekende tabellen in de uiteindelijke gegevensstroom. In dit geval moeten gegevensmodelleerders toegang krijgen met de rol werkruimteviewer .
Notitie
Er zijn veel ontwerptechnieken, patronen en best practices waarmee gegevensstromen van selfservice naar bedrijfsklaar kunnen worden. Bovendien kunnen gegevensstromen in een werkruimte waarvoor de licentiemodus is ingesteld op Premium per gebruiker of Premium-capaciteit profiteren van geavanceerde functies. Gekoppelde tabellen en berekende tabellen (ook wel entiteiten genoemd) zijn twee geavanceerde functies die essentieel zijn voor het vergroten van de herbruikbaarheid van gegevensstromen.
Verbeterde berekeningsengine
De verbeterde rekenengine is een geavanceerde functie die beschikbaar is met Power BI Premium. De verbeterde berekeningsengine verbetert de prestaties van gekoppelde tabellen (binnen dezelfde werkruimte) die verwijzen (koppelen aan) de gegevensstroom. Ga als volgende te werk om optimaal te profiteren van de verbeterde rekenengine:
- Splits de faserings- en transformatiegegevensstromen.
- Gebruik dezelfde werkruimte om de faserings- en transformatiegegevensstromen op te slaan.
- Pas al vroeg in de querystappen complexe bewerkingen toe waarmee query's kunnen worden gevouwen . Het prioriteren van vouwbare bewerkingen kan helpen om de beste vernieuwingsprestaties te bereiken.
- Gebruik incrementeel vernieuwen om de vernieuwingsduur en het resourceverbruik te verminderen.
- Voer tests vroeg en regelmatig uit tijdens de ontwikkelingsfase.
Gegevensstroom en gegevensset vernieuwen
Een gegevensstroom is een gegevensbron voor gegevenssets. In de meeste gevallen zijn er meerdere schema's voor het vernieuwen van gegevens betrokken: één voor elke gegevensstroom en één voor elke gegevensset. Het is ook mogelijk om DirectQuery te gebruiken van de gegevensset naar de gegevensstroom. Hiervoor is Power BI Premium en de verbeterde rekenengine vereist (niet weergegeven in het scenariodiagram).
Azure Data Lake Storage Gen2
Een ADLS Gen2-account is een specifiek type Azure-opslagaccount waarvoor de hiërarchische naamruimte is ingeschakeld. ADLS Gen2 biedt prestatie-, beheer- en beveiligingsvoordelen voor het uitvoeren van analytische workloads. Standaard maken Power BI-gegevensstromen gebruik van interne opslag. Dit is een ingebouwd Data Lake-account dat wordt beheerd door de Power BI-service. Organisaties kunnen eventueel hun eigen data lake meenemen door verbinding te maken met een ADLS Gen2-account in hun organisatie.
Hier volgen enkele voordelen van het gebruik van uw eigen data lake:
- Gebruikers (of processen) hebben rechtstreeks toegang tot de gegevensstroomgegevens die zijn opgeslagen in de data lake. Dit is handig wanneer gegevensstromen buiten Power BI opnieuw worden gebruikt. Azure Data Factory heeft bijvoorbeeld toegang tot de gegevensstroomgegevens.
- Andere hulpprogramma's of systemen kunnen de gegevens in de data lake beheren. In dit geval kan Power BI de gegevens verbruiken in plaats van deze te beheren (niet weergegeven in het scenariodiagram).
Wanneer u gekoppelde tabellen of berekende tabellen gebruikt, moet u ervoor zorgen dat elke werkruimte is toegewezen aan hetzelfde ADLS Gen2-opslagaccount.
Notitie
Gegevensstromen in ADLS Gen2 worden opgeslagen in een power BI-specifieke container. Deze container wordt weergegeven in het scenariodiagram voor selfservicegegevensvoorbereiding .
Instellingen voor beheerdersportal
Er zijn twee belangrijke instellingen die moeten worden beheerd in de Beheer-portal:
- Azure-verbindingen: De sectie Azure-verbindingen van de Beheer-portal bevat een instelling voor het instellen van een verbinding met een ADLS Gen2-account. Met deze instelling kan een Power BI-beheerder uw eigen data lake naar gegevensstromen brengen. Zodra de configuratie is uitgevoerd, kunnen werkruimten dat data lake-account gebruiken voor opslag.
- Opslag op werkruimteniveau: Een Power BI-beheerder kan opslagmachtigingen op werkruimteniveau instellen. Als deze instelling is ingeschakeld, kunnen werkruimtebeheerders een ander opslagaccount gebruiken dan het account dat is ingesteld op tenantniveau. Het inschakelen van deze instelling is handig voor gedecentraliseerde bedrijfseenheden die hun eigen data lake in Azure beheren.
Gateway instellen
Normaal gesproken is een on-premises gegevensgateway vereist om verbinding te maken met gegevensbronnen die zich in een particulier organisatienetwerk of een virtueel netwerk bevinden.
Een gegevensgateway is vereist wanneer:
- Een gegevensstroom maken in Power Query Online die verbinding maakt met persoonlijke organisatiegegevens.
- Een gegevensstroom vernieuwen die verbinding maakt met persoonlijke organisatiegegevens.
Tip
Voor gegevensstromen is een gecentraliseerde gegevensgateway in de standaardmodus vereist. Een gateway in de persoonlijke modus wordt niet ondersteund bij het werken met gegevensstromen.
Systeemoverzicht
Het activiteitenlogboek registreert gebruikersactiviteiten die plaatsvinden in de Power BI-service. Power BI-beheerders kunnen de verzamelde gegevens van het activiteitenlogboek gebruiken om controles uit te voeren om inzicht te hebben in gebruikspatronen en acceptatie. Het activiteitenlogboek is ook waardevol voor het ondersteunen van governance-inspanningen, beveiligingscontroles en nalevingsvereisten. In het scenario voor geavanceerde gegevensvoorbereiding zijn de gegevens van het activiteitenlogboek handig om het beheer en gebruik van gegevensstromen bij te houden.
Volgende stappen
Zie het artikel Power BI-gebruiksscenario's voor andere nuttige scenario's om u te helpen bij het nemen van beslissingen over power BI-implementaties.