Gegevensstroomopslag configureren voor gebruik van Azure Data Lake Gen 2

Gegevens die worden gebruikt met Power BI, worden standaard opgeslagen in de interne opslag die wordt geleverd door Power BI. Met de integratie van gegevensstromen en Azure Data Lake Storage Gen 2 (ADLS Gen2) kunt u uw gegevensstromen opslaan in het Azure Data Lake Storage Gen 2-account van uw organisatie. Zo kunt u in feite uw eigen opslag overbrengen naar Power BI-gegevensstromen en een verbinding tot stand brengen op tenant- of werkruimteniveau.

Redenen om de ADLS Gen 2-werkruimte of tenantverbinding te gebruiken

Nadat u uw gegevensstroom hebt gekoppeld, configureert en slaat Power BI een verwijzing op, zodat u nu gegevens kunt lezen en schrijven naar uw eigen ADLS Gen 2. Power BI slaat de gegevens op in de CDM-indeling, waarmee metagegevens over uw gegevens worden vastgelegd, naast de werkelijke gegevens die door de gegevensstroom zelf worden gegenereerd. Dit ontgrendelt veel krachtige mogelijkheden en stelt uw gegevens en de bijbehorende metagegevens in CDM-indeling in staat om nu uitbreidbaarheid, automatisering, bewaking en back-upscenario's te leveren. Door deze gegevens beschikbaar te maken en algemeen toegankelijk te maken in uw eigen omgeving, kunt u hiermee de inzichten en gegevens die in de organisatie zijn gemaakt democratiseren. Het biedt u ook de mogelijkheid om verdere oplossingen te maken die cdm-bewust zijn (zoals aangepaste toepassingen en oplossingen in Power Platform, Azure en die beschikbaar zijn via partner- en ISV-ecosystemen) of gewoon een CSV kunnen lezen. Uw gegevenstechnici, gegevenswetenschappers en analisten kunnen nu werken met, gebruiken en hergebruiken van een gemeenschappelijke set gegevens die is samengesteld in ADLS Gen 2.

Er zijn twee manieren om te configureren welke ADLS Gen 2-winkel moet worden gebruikt: u kunt een door de tenant toegewezen ADLS Gen 2-account gebruiken of u kunt uw eigen ADLS Gen 2-archief gebruiken op werkruimteniveau.

Vereisten

  • Als u uw eigen ADLS Gen 2-account wilt gebruiken, moet u de machtiging Eigenaar hebben op de laag van het opslagaccount. Machtigingen op het niveau van de resourcegroep of het abonnement werken niet . Als u een beheerder bent, moet u nog steeds de machtiging Eigenaar van uzelf toewijzen. AdLS Gen2-opslagaccounts worden momenteel niet ondersteund achter een firewall.

  • Het opslagaccount moet worden gemaakt met de hiërarchische naamruimte (HNS) ingeschakeld.

  • Het opslagaccount moet worden gemaakt in dezelfde Azure Active Directory-tenant als de Power BI-tenant.

  • De gebruiker moet de rol Eigenaar van opslagblobgegevens hebben, de rol Opslagblobgegevenslezer en een rol Eigenaar op het niveau van het opslagaccount (dit bereik moet deze resource zijn en niet overgenomen). Het synchroniseren van toegepaste rolwijzigingen kan enkele minuten duren en moet worden gesynchroniseerd voordat de volgende stappen kunnen worden voltooid in de Power BI-service.

  • De tenantregio van de Power BI-werkruimte moet hetzelfde zijn als de regio van het opslagaccount.

  • TLS (Transport Layer Security) versie 1.2 (of hoger) is vereist om uw eindpunten te beveiligen. Webbrowsers en andere clienttoepassingen die gebruikmaken van TLS-versies die ouder zijn dan TLS 1.2, kunnen geen verbinding maken.

  • Het koppelen van een gegevensstroom met ADLS Gen 2 achter meervoudige verificatie (MFA) wordt niet ondersteund.

  • Ten slotte kunt u verbinding maken met elke ADLS Gen 2 vanuit de beheerportal, maar als u rechtstreeks verbinding maakt met een werkruimte, moet u eerst controleren of er geen gegevensstromen in de werkruimte zijn voordat u verbinding maakt.

In de volgende tabel worden de machtigingen voor ADLS en voor Power BI beschreven die zijn vereist voor ADLS Gen 2 en Power BI:

Actie ADLS-machtigingen Minimale Power BI-machtigingen
ADLS Gen 2 verbinden met Power BI-tenant Eigenaar Power BI-beheerder
ADLS Gen 2 verbinden met werkruimte Eigenaar Werkruimte-Beheer
Power BI-gegevensstromen maken die worden teruggeschreven naar een verbonden ADLS-account Niet van toepassing Werkruimtebijdrager
Power BI-gegevensstroom gebruiken Niet van toepassing Werkruimteviewer

Verbinding maken met een Azure Data Lake Gen 2 op werkruimteniveau

Navigeer naar een werkruimte die geen gegevensstromen heeft. Selecteer Werkruimte-instellingen. Selecteer het tabblad Azure-verbindingen en selecteer vervolgens de sectie Opslag.

Verbinding maken met Azure

De optie Standaardverbinding van Azure gebruiken is zichtbaar als de beheerder al een ADLS Gen 2-account heeft geconfigureerd dat aan een tenant is toegewezen. U hebt hiervoor twee opties:

  • Gebruik het door de tenant geconfigureerde ADLS Gen 2-account door het vak met de naam De standaardVerbinding van Azure gebruiken te selecteren of
  • Selecteer Verbinding maken met Azure om te verwijzen naar een nieuw Azure Storage-account.

Wanneer u Verbinding maken met Azure selecteert, haalt Power BI een lijst met Azure-abonnementen op waartoe u toegang hebt. Vul de vervolgkeuzelijsten in en selecteer een geldig Azure-abonnement, resourcegroep en opslagaccount waarvoor de hiërarchische naamruimteoptie is ingeschakeld. Dit is de adLS Gen2-vlag.

abonnementsdetails

Als u Opslaan hebt geselecteerd, selecteert u Opslaan en hebt u de werkruimte nu verbonden met uw eigen ADLS Gen2-account. Power BI configureert het opslagaccount automatisch met de vereiste machtigingen en stelt het Power BI-bestandssysteem in waarin de gegevens worden geschreven. Op dit punt worden de gegevens van elke gegevensstroom binnen deze werkruimte rechtstreeks naar dit bestandssysteem geschreven, dat kan worden gebruikt met andere Azure-services, zodat u één bron voor al uw organisatie- of afdelingsgegevens hebt.

Informatie over configuratie

Het configureren van Azure-verbindingen is een optionele instelling met aanvullende eigenschappen die eventueel kunnen worden ingesteld:

  • Opslag op tenantniveau, waarmee u een standaardinstelling en/of
  • Opslag op werkruimteniveau, waarmee u de verbinding per werkruimte kunt opgeven

U kunt eventueel opslag op tenantniveau configureren als u alleen een gecentraliseerde Data Lake wilt gebruiken of als u wilt dat dit de standaardoptie is. We gaan niet automatisch de standaardinstelling gebruiken om flexibiliteit in uw configuratie toe te staan, dus u hebt flexibiliteit om de werkruimten te configureren die deze verbinding gebruiken zoals u dat wilt. Als u een door de tenant toegewezen ADLS Gen 2-account configureert, moet u nog steeds elke werkruimte configureren om deze standaardoptie te gebruiken.

U kunt desgewenst opslagmachtigingen op werkruimteniveau configureren als een afzonderlijke optie, die volledige flexibiliteit biedt om een specifiek ADLS Gen 2-account op werkruimtebasis in te stellen.

Samenvattend: als opslag op tenant- en werkruimteniveau opslagmachtigingen zijn toegestaan, kunnen werkruimtebeheerders eventueel de standaard ADLS-verbinding gebruiken of ervoor kiezen om een ander opslagaccount te configureren, gescheiden van de standaardinstelling. Als tenantopslag niet is ingesteld, kunnen werkruimtebeheerders optioneel ADLS-accounts configureren op werkruimtebasis. Als ten slotte opslag op tenantniveau is geselecteerd en opslag op werkruimteniveau niet is toegestaan, kunnen werkruimtebeheerders desgewenst hun gegevensstromen configureren om deze verbinding te gebruiken.

Inzicht in de structuur en indeling voor ADLS Gen 2-werkruimteverbindingen

In het ADLS Gen 2-opslagaccount worden alle gegevensstromen opgeslagen in de powerbi-container van het bestandssysteem.

De structuur van de powerbi-container ziet er als volgt uit: <workspace name>/<dataflow name>/model.json <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>

De locatie waar gegevensstromen gegevens opslaan in de maphiërarchie voor ADLS Gen 2, wordt bepaald door of de werkruimte zich in gedeelde capaciteit of Premium-capaciteit bevindt. De bestandsstructuur na het vernieuwen voor elk capaciteitstype wordt weergegeven in de onderstaande tabel.

Premium-capaciteit Gedeelde capaciteit
<workspace name>/<dataflow name>/<table name>/<tablesnapshots> <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

Hieronder ziet u een voorbeeld met behulp van de tabel Orders van het Odata-voorbeeld Northwind.

Het northwind-voorbeeld met de tabel Orders

In de bovenstaande afbeelding:

  • Model.json is de meest recente versie van de gegevensstroom.
  • De model.json.snapshots zijn alle vorige versies van de gegevensstroom. Dit is handig als u een eerdere versie van mashup of incrementele instellingen nodig hebt.
  • De table.snapshots.csv zijn de gegevens die u hebt verkregen na een vernieuwing. Dit is handig voor incrementele vernieuwingen en ook voor gedeelde vernieuwingen waarbij een gebruiker te maken krijgt met een time-outprobleem vanwege de grootte van de gegevens. Ze kunnen de meest recente momentopname bekijken om te zien hoeveel gegevens zich in het CSV-bestand bevinden.

We schrijven alleen naar dit opslagaccount en verwijderen momenteel geen gegevens. Dit betekent dat zelfs na het loskoppelen niet uit het ADLS-account wordt verwijderd, zodat alle bovenstaande bestanden nog steeds worden opgeslagen.

Notitie

Een model.json-bestand kan verwijzen naar een ander model.json dat een andere gegevensstroom in dezelfde werkruimte is of in een gegevensstroom in een andere werkruimte. De enige keer dat een model.json naar een table.snapshot.csv verwijst, is voor incrementeel vernieuwen.

Uitbreidbaarheid voor ADLS Gen 2-werkruimteverbindingen

Als u ADLS Gen 2 verbindt met Power BI, kunt u dit doen op het niveau van de werkruimte of tenant. Zorg ervoor dat u het juiste toegangsniveau hebt. Meer informatie in Vereisten.

De opslagstructuur voldoet aan de Common Data Model-indeling. Meer informatie over de opslagstructuur en CDM vindt u in wat is de opslagstructuur voor analytische gegevensstromen en Common Data Model en Azure Data Lake Storage Gen2.

Zodra de gegevens en metagegevens correct zijn geconfigureerd, zijn de gegevens en metagegevens in uw controle. Een aantal toepassingen zijn op de hoogte van het CDM en de gegevens kunnen worden uitgebreid met behulp van Azure, PowerApps en PowerAutomate, evenals ecosystemen van derden door te voldoen aan de indeling of door de onbewerkte gegevens te lezen.

De verbinding van Azure Data Lake Gen 2 met een werkruimte of tenant verbreken

Als u een verbinding wilt verwijderen op een werkruimteniveau, moet u er eerst voor zorgen dat alle gegevensstromen in de werkruimte zijn verwijderd. Zodra alle gegevensstromen zijn verwijderd, selecteert u Verbinding verbreken in de werkruimte-instellingen. Hetzelfde geldt voor een tenant, maar u moet er eerst voor zorgen dat de verbinding van alle werkruimten met het tenantopslagaccount ook is verbroken voordat u de verbinding kunt verbreken op een tenantniveau.

Azure Data Lake Gen 2 uitschakelen

In de Beheerportal kunt u deze functie onder Gegevensstromen uitschakelen zodat gebruikers er geen toegang toe hebben, en kunt u de optie uitschakelen dat werkruimtebeheerders hun eigen Azure Storage-account gebruiken.

Terugkeren van Azure Data Lake Gen 2

Zodra de gegevensstroomopslag is geconfigureerd voor het gebruik van Azure Data Lake Gen 2, is er geen manier om automatisch terug te keren. Het proces om terug te keren naar door Power BI beheerde opslag is handmatig.

Als u de migratie die u hebt gemaakt naar Gen 2 wilt terugdraaien, moet u uw gegevensstromen verwijderen en opnieuw maken in dezelfde werkruimte. Omdat we vervolgens geen gegevens uit ADLS Gen 2 verwijderen, gaat u naar de resource zelf en schoont u gegevens op. Dit omvat de volgende stappen.

  1. Een kopie van de gegevensstroom exporteren vanuit Power BI. Of kopieer het bestand model.json. Het bestand model.json wordt opgeslagen in ADLS.

  2. Verwijder de gegevensstromen.

  3. ADLS loskoppelen.

  4. Maak de gegevensstromen opnieuw met behulp van importeren. Houd er rekening mee dat incrementele vernieuwingsgegevens (indien van toepassing) moeten worden verwijderd voordat ze worden geïmporteerd. U kunt dit doen door de relevante partities in het bestand model.json te verwijderen.

  5. Configureer beleid voor vernieuwen/opnieuw incrementeel vernieuwen.

Verbinding maken met de gegevens met behulp van de ADLS Gen 2-connector

Het bereik van dit document beschrijft ADLS Gen 2-gegevensstromenverbindingen en niet de Power BI ADLS Gen 2-connector. Werken met de ADLS Gen 2-connector is een afzonderlijk, mogelijk additief scenario. De ADLS-connector gebruikt gewoon ADLS als gegevensbron. Dit betekent dat het gebruik van PQO om query's uit te voeren op die gegevens niet in CDM-indeling hoeft te zijn, dit kan de gegevensindeling zijn die de klant wil. Lees meer over dit scenario door gegevens analyseren te bezoeken in Azure Data Lake Storage Gen2 met behulp van Power BI.

Volgende stappen

De volgende artikelen bieden meer informatie over gegevensstromen en Power BI: