Användningsscenarier för Power BI: Förberedelse av självbetjäningsdata

Kommentar

Den här artikeln är en del av planeringsserien för Power BI-implementering. Den här serien fokuserar främst på Power BI-arbetsbelastningen i Microsoft Fabric. En introduktion till serien finns i Implementeringsplanering för Power BI.

Dataförberedelse (kallas ibland ETL, vilket är en förkortning för Extrahera, Transformera och Läsa in) innebär ofta en betydande mängd arbete beroende på källdatas kvalitet och struktur. Användningsscenariot för självbetjäning av dataförberedelser fokuserar på affärsanalytikers återanvändning av dataförberedelseaktiviteter. Det uppnår det här målet för återanvändning genom att flytta dataförberedelsearbetet från Power Query (inom enskilda Power BI Desktop-filer) till Power Query Online (med hjälp av ett Power BI-dataflöde). Centraliseringen av logiken hjälper till att uppnå en enda källa till sanningen och minskar den ansträngningsnivå som krävs av andra innehållsskapare.

Dataflöden skapas med hjälp av Power Query Online i något av flera verktyg: Power BI-tjänst, Power Apps eller Dynamics 365 Customer Insights. Ett dataflöde som skapats i Power BI kallas för ett analytiskt dataflöde. Dataflöden som skapas i Power Apps kan antingen vara en av två typer: standard eller analys. Det här scenariot omfattar endast användning av ett Power BI-dataflöde som skapas och hanteras inom Power BI-tjänst.

Kommentar

Scenariot för dataförberedelse med självbetjäning är ett av BI-scenarierna med självbetjäning. En fullständig lista över självbetjäningsscenarier finns i artikeln Om Power BI-användningsscenarier .

I korthet beskrivs inte vissa aspekter som beskrivs i avsnittet om innehållssamarbete och leveransscenarier i den här artikeln. För fullständig täckning, läs dessa artiklar först.

Scenariodiagram

Följande diagram visar en översikt på hög nivå över de vanligaste användaråtgärderna och Power BI-komponenterna som stöder förberedelse av självbetjäningsdata. Det primära fokuset ligger på att skapa ett dataflöde i Power Query Online som blir en datakälla för flera semantiska modeller (tidigare kallade datauppsättningar). Målet är att många semantiska modeller ska kunna använda den dataförberedelse som görs en gång av dataflödet.

Diagram visar dataförberedelser med självbetjäning, vilket handlar om dataflöden för centralisering av datarensning och transformeringsarbete. Objekt i diagrammet beskrivs i tabellen nedan.

Dricks

Vi rekommenderar att du laddar ned scenariodiagrammet om du vill bädda in det i presentationen, dokumentationen eller blogginlägget eller skriva ut det som en väggaffisch. Eftersom det är en SVG-bild (Scalable Vector Graphics) kan du skala upp eller ned den utan någon kvalitetsförlust.

Scenariodiagrammet visar följande användaråtgärder, verktyg och funktioner:

Artikel Beskrivning
Objekt 1. Skaparen av dataflödet utvecklar en samling tabeller i ett Power BI-dataflöde. För ett dataflöde som är avsett för återanvändning är det vanligt (men inte obligatoriskt) att skaparen tillhör ett centraliserat team som stöder användare över organisationsgränser (till exempel IT, enterprise BI eller Center of Excellence).
Objekt 2. Dataflödet ansluter till data från en eller flera datakällor.
Objekt 3. Vissa datakällor kan kräva en lokal datagateway eller VNet-gateway för datauppdatering, som de som finns i ett privat organisationsnätverk. Dessa gatewayer används både för att redigera dataflödet i Power Query Online, som är en webbaserad version av Power Query, och för att uppdatera dataflödet.
Objekt 4. Dataflöden utvecklas med Power Query Online. Det välbekanta Power Query-gränssnittet i Power Query Online gör övergången från Power BI Desktop enkel.
Objekt 5. Dataflödet sparas som ett objekt på en arbetsyta som är dedikerad till att lagra och skydda dataflöden. Ett dataflödesuppdateringsschema krävs för att hålla data aktuella (visas inte i scenariodiagrammet).
Objekt 6. Dataflödet kan återanvändas som en datakälla av innehållsskapare och av andra semantiska modeller som kan finnas på olika arbetsytor.
Objekt 7. Den semantiska modellskaparen utvecklar en ny datamodell med hjälp av Power BI Desktop. Den semantiska modellskaparen kan använda alla funktioner i Power Query i Power BI Desktop. De kan också använda andra frågesteg för att ytterligare transformera dataflödesdata eller sammanfoga dataflödesutdata.
Objekt 8. När den är klar publicerar den semantiska modellskaparen Power BI Desktop-filen (.pbix) som innehåller datamodellen till Power BI-tjänst. Uppdatering för den semantiska modellen hanteras separat från dataflödet (visas inte i scenariodiagrammet).
Objekt 9. Andra semantiska modellskapare med självbetjäning kan skapa nya datamodeller i Power BI Desktop med dataflödet som datakälla.
Objekt 10. I administratörsportalen kan Power BI-administratörer konfigurera Azure-anslutningar för att lagra dataflödesdata i sitt Azure Data Lake Storage Gen2-konto (ADLS Gen2). Inställningar inkluderar att tilldela ett lagringskonto på klientorganisationsnivå och aktivera lagringsbehörigheter på arbetsytenivå.
Objekt 11. Power BI-administratörer hanterar inställningar i administratörsportalen.
Objekt 12. Som standard lagrar dataflöden data med hjälp av intern lagring som hanteras av Power BI-tjänst. Du kan också lagra datautdata från dataflödet i organisationens ADLS Gen2-konto . Den här typen av lagring kallas ibland för Bring Your Own Data Lake. En fördel med att lagra dataflödesdata i datasjön är att de kan nås och användas av andra BI-verktyg.
Objekt 13. Dataflödesdata i ADLS Gen2 lagras i en Power BI-specifik container som kallas filsystem. I den här containern finns en mapp för varje arbetsyta. En undermapp skapas för varje dataflöde samt för varje tabell. Power BI genererar en ögonblicksbild varje gång dataflödesdata uppdateras. Ögonblicksbilder är självbeskrivande, bestående av metadata och datafiler.
Objekt 14. Azure-administratörer hanterar behörigheter för organisationens ADLS Gen2-konto.
Objekt 15. Power BI-administratörer övervakar och övervakar aktivitet i Power BI-tjänst.

Dricks

Vi rekommenderar att du granskar användningsscenariot för avancerad dataförberedelse också. Den bygger på begrepp som introduceras i det här scenariot.

Huvudpunkter

Följande är några viktiga punkter att betona om självbetjäningsscenariot för dataförberedelse.

Dataflöden

Ett dataflöde består av en samling tabeller (kallas även entiteter). Allt arbete för att skapa ett dataflöde görs i Power Query Online. Du kan skapa dataflöden i flera produkter, inklusive Power Apps, Dynamics 365 Customer Insights och Power BI.

Kommentar

Du kan inte skapa dataflöden på en personlig arbetsyta i Power BI-tjänst.

Stöd för skapare av semantiska modeller

Scenariodiagrammet visar hur du använder ett Power BI-dataflöde för att tillhandahålla förberedda data till andra semantiska modellskapare med självbetjäning.

Kommentar

Semantisk modell använder dataflödet som datakälla. En rapport kan inte ansluta direkt till ett dataflöde.

Här är några fördelar med att använda Power BI-dataflöden:

  • Skapare av semantiska modeller använder samma välbekanta Power Query-gränssnitt som finns i Power BI Desktop.
  • Dataförberedelse och datatransformeringslogik som definieras av ett dataflöde kan återanvändas många gånger eftersom det är centraliserat.
  • När logikändringar för dataförberedelse görs i dataflödet kanske det inte kräver uppdatering av beroende datamodeller. Att ta bort eller byta namn på kolumner eller ändra kolumndatatyper kräver uppdatering av beroende datamodeller.
  • Förberedda data kan enkelt göras tillgängliga för power BI-semantiska modellskapare. Återanvändning är särskilt användbart för vanliga tabeller, särskilt dimensionstabeller som datum, kund och produkt.
  • Den ansträngningsnivå som krävs av semantiska modellskapare minskar eftersom dataförberedelsearbetet har frikopplats från datamodelleringsarbetet.
  • Färre skapare av semantiska modeller behöver direkt åtkomst till källsystem. Källsystem kan vara komplexa att köra frågor mot och kan kräva särskilda åtkomstbehörigheter.
  • Antalet uppdateringar som körs på källsystem minskas eftersom semantiska modelluppdateringar ansluter till dataflöden och inte till källsystemen från vilka dataflöden extraherar data.
  • Dataflödesdata representerar en ögonblicksbild i tid och främjar konsekvens när de används av många semantiska modeller.
  • Genom att koppla bort dataförberedelselogik till dataflöden kan du förbättra lyckade uppdateringar av semantiska modeller. Om en dataflödesuppdatering misslyckas uppdateras semantiska modeller med den senaste lyckade dataflödesuppdateringen.

Dricks

Skapa dataflödestabeller genom att tillämpa designprinciper för star-schema . En star-schemadesign passar bra för att skapa Power BI-semantiska modeller. Förfina också dataflödesutdata för att tillämpa egna namn och använda specifika datatyper. Dessa tekniker främjar konsekvens i beroende semantiska modeller och hjälper till att minska mängden arbete som skapare av semantiska modeller behöver utföra.

Flexibilitet för semantisk modellskapare

När en semantisk modellskapare ansluter till ett dataflöde i Power BI Desktop är skaparen inte begränsad till att använda exakta dataflödesutdata. De har fortfarande de fullständiga funktionerna i Power Query tillgängliga för dem. Den här funktionen är användbar om ytterligare dataförberedelsearbete krävs, eller om data kräver ytterligare omvandling.

Avancerade funktioner för dataflöde

Det finns många designtekniker, mönster och metodtips för dataflöden som kan ta dem från självbetjäning till företagsklara. Dataflöden på en arbetsyta som har sitt licensläge inställt på Premium per användare, Premium-kapacitet eller Infrastrukturkapacitet kan dra nytta av avancerade funktioner.

Viktigt!

Ibland refererar den här artikeln till Power BI Premium eller dess kapacitetsprenumerationer (P SKU:er). Tänk på att Microsoft för närvarande konsoliderar köpalternativ och drar tillbaka Power BI Premium per kapacitets-SKU:er. Nya och befintliga kunder bör överväga att köpa kapacitetsprenumerationer för Infrastrukturresurser (F SKU:er) i stället.

Mer information finns i Viktig uppdatering som kommer till Power BI Premium-licensiering och Vanliga frågor och svar om Power BI Premium.

Kommentar

En av de avancerade funktionerna är inkrementell uppdatering för dataflöden. Även om inkrementell uppdatering för semantiska modeller är en Power BI Pro-funktion är inkrementell uppdatering för dataflöden en Premium-funktion.

Mer information om avancerade funktioner för dataflöden finns i scenariot för avancerad dataförberedelseanvändning .

Uppdatering av dataflöde och semantisk modell

Som tidigare nämnts är ett dataflöde en datakälla för semantiska modeller. I de flesta fall ingår flera datauppdateringsscheman: ett för dataflödet och ett för varje semantisk modell. Du kan också använda DirectQuery från den semantiska modellen till dataflödet, som är en Premium-funktion (visas inte i scenariodiagrammet).

Azure Data Lake Storage Gen2

I Microsoft Azure är ett ADLS Gen2-konto en specifik typ av Azure Storage-konto som har det hierarkiska namnområdet aktiverat. ADLS Gen2 har prestanda-, hanterings- och säkerhetsfördelar för driften av analytiska arbetsbelastningar. Som standard använder Power BI-dataflöden intern lagring, vilket är ett inbyggt Data Lake-konto som hanteras av Power BI-tjänst. Organisationer kan också ta med sin egen datasjö genom att ansluta till organisationens ADLS Gen2-konto.

Här är några fördelar med att använda organisationens data lake-konto:

  • Data som lagras av ett Power BI-dataflöde kan (valfritt) nås från datasjön av andra användare eller processer. Det är användbart när återanvändning av dataflöden sker utanför Power BI. Data kan till exempel nås av Azure Data Factory.
  • Data i datasjön kan (valfritt) hanteras av andra verktyg eller system. I det här fallet kan Power BI använda data i stället för att hantera dem (visas inte i scenariodiagrammet).

Lagring på klientnivå

Avsnittet Azure-anslutningar i administratörsportalen innehåller en inställning för att konfigurera en anslutning till ett ADLS Gen2-konto. Om du konfigurerar den här inställningen kan du använda en egen datasjö. När du har konfigurerat det kan du ange att arbetsytor ska använda datasjökontot.

Viktigt!

Att ange Azure-anslutningar innebär inte att alla dataflöden i Power BI-klientorganisationen lagras i det här kontot som standard. För att kunna använda ett explicit lagringskonto (i stället för intern lagring) måste varje arbetsyta vara specifikt ansluten.

Det är viktigt att ange Azure-anslutningar för arbetsytan innan du skapar dataflöden på arbetsytan. Samma Azure-lagringskonto används för säkerhetskopior av Power BI-semantikmodeller.

Lagring på arbetsyta

En Power BI-administratör kan konfigurera en inställning för att tillåta lagringsbehörigheter på arbetsyta (i avsnittet Azure-anslutningar i administratörsportalen). När den här inställningen är aktiverad kan arbetsyteadministratörer använda ett annat lagringskonto än det som definierats på klientorganisationsnivå. Att aktivera den här inställningen är särskilt användbart för decentraliserade affärsenheter som hanterar sin egen datasjö i Azure.

Kommentar

Lagringsbehörigheten på arbetsytan i administratörsportalen gäller för alla arbetsytor i Power BI-klientorganisationen.

Common Data Model-formatet

Data i ett ADLS Gen2-konto lagras i CDM-strukturen (Common Data Model). CDM-strukturen är ett metadataformat som avgör hur det självbeskrivande schemat samt data lagras. CDM-strukturen möjliggör semantisk konsekvens i ett format som är standardiserat för att dela data i flera program (visas inte i scenariodiagrammet).

Publicera till separata arbetsytor

Det finns flera fördelar med att publicera ett dataflöde till en arbetsyta som är separat från den plats där de beroende semantiska modellerna lagras. En fördel är klarhet om vem som ansvarar för att hantera vilka typer av innehåll (om du har olika personer som hanterar olika ansvarsområden). En annan fördel är att specifika arbetsytebehörigheter kan tilldelas för varje typ av innehåll.

Kommentar

Du kan inte skapa dataflöden på en personlig arbetsyta i Power BI-tjänst.

Scenariot för avancerad dataförberedelse beskriver hur du konfigurerar flera arbetsytor för att ge bättre flexibilitet när du stöder självbetjäningsskapare på företagsnivå.

Gateway-konfiguration

Normalt krävs en lokal datagateway för att ansluta till datakällor som finns i ett privat organisationsnätverk eller ett virtuellt nätverk.

En datagateway krävs när:

  • Redigera ett dataflöde i Power Query Online som ansluter till privata organisationsdata.
  • Uppdaterar ett dataflöde som ansluter till privata organisationsdata.

Dricks

Dataflöden kräver en centraliserad datagateway i standardläge. En gateway i personligt läge stöds inte när du arbetar med dataflöden.

Systemtillsyn

Aktivitetsloggen registrerar användaraktiviteter som inträffar i Power BI-tjänst. Power BI-administratörer kan använda aktivitetsloggdata som samlas in för att utföra granskning för att hjälpa dem att förstå användningsmönster och implementering. Aktivitetsloggen är också värdefull för att stödja styrningsinsatser, säkerhetsgranskningar och efterlevnadskrav. Med ett scenario med självbetjäning av dataförberedelser är det särskilt användbart att spåra användningen av dataflöden.

I nästa artikel i serien får du lära dig mer om användningsscenariot för avancerad dataförberedelse .