Zdieľať cez


Scenáre používania služby Power BI: Samoobslužná príprava údajov

Poznámka

Tento článok je súčasťou série článkov k plánovaniu implementácie služby Power BI. Táto séria sa zameriava predovšetkým na prostredie služby Power BI v rámci služby Microsoft Fabric. Úvod do série nájdete v téme Plánovanie implementácie služby Power BI.

Príprava údajov (označovaná aj ako ETL, čo je skratka pre extrahovanie, transformáciu a načítanie) často zahŕňa značné množstvo práce v závislosti od kvality a štruktúry zdrojových údajov. Scenár použitia samoobslužnej prípravy údajov sa zameriava na opätovnú využiteľnosť aktivít prípravy údajov zo strany obchodných analytikov. Tento cieľ je možné dosiahnuť premiestnením práce na prípravu údajov zo služby Power Query (v rámci jednotlivých súborov aplikácie Power BI Desktop) do nástroja Power Query Online (pomocou toku údajov služby Power BI). Centralizácia logiky pomáha dosiahnuť jeden zdroj pravdy a znižuje úroveň úsilia, ktoré vyžadujú iní tvorcovia obsahu.

Toky údajov sa vytvárajú pomocou doplnku Power Query Online v jednom z niekoľkých nástrojov: služba Power BI, Power Apps alebo Dynamics 365 Customer Insights. Tok údajov vytvorený v službe Power BI sa označuje ako analytický tok údajov. Toky údajov vytvorené v službe Power Apps môžu byť jedným z dvoch typov: štandardný alebo analytický. Tento scenár sa vzťahuje len na používanie toku údajov služby Power BI, ktorý je vytvorený a spravovaný v rámci služba Power BI.

Poznámka

Scenár samoobslužnej prípravy údajov je jedným zo samoobslužných scenárov BI. Úplný zoznam scenárov samoobslužných služieb nájdete v článku Scenáre používania služby Power BI.

Z dôvodu stručnosti nie sú niektoré aspekty popísané v téme Scenáre spolupráce s obsahom a doručovania zahrnuté v tomto článku. Ak chcete dokončiť pokrytie, prečítajte si tieto články ako prvé.

Diagram scenára

Nasledujúci diagram znázorňuje podrobný prehľad najčastejších akcií používateľa a súčastí služby Power BI, ktoré podporujú samoobslužnú prípravu údajov. Hlavné zameranie je na vytvorenie toku údajov v power query Online, ktorý sa stáva zdrojom údajov pre viaceré sémantické modely. Cieľom je, aby mnohé sémantické modely využívali prípravu údajov, ktorú tok údajov vykonal raz.

Diagram znázorňujúci samoobslužnú prípravu údajov, ktorá je o tokoch údajov na centralizovanie čistenia a transformácie údajov. Položky v diagrame sú popísané v tabuľke nižšie.

Prepitné

Odporúčame stiahnuť scenárový diagram , ak by ste ho chceli vložiť do prezentácie, dokumentácie alebo blogového príspevku, alebo ho vytlačiť ako plagát steny. Keďže ide o obrázok SVG (Scalable Vector Graphics), môžete ho škálovať nahor alebo nadol bez straty kvality.

Diagram scenára znázorňuje nasledujúce akcie, nástroje a funkcie používateľa:

Položka Popis
Položka 1. Tvorca toku údajov vytvorí kolekciu tabuliek v rámci toku údajov služby Power BI. V prípade toku údajov, ktorý je určený na opätovné použitie, je bežné, že tvorca patrí do centralizovaného tímu, ktorý podporuje používateľov naprieč hranicami organizácie (napríklad IT, podnikové služby BI alebo Centrum excelentnosti).
Položka 2. Tok údajov sa pripája k údajom z jedného alebo viacerých zdrojov údajov.
Položka 3. Niektoré zdroje údajov môžu na obnovenie údajov vyžadovať lokálnu bránu údajov alebo bránu VNet, napríklad tie, ktoré sa nachádzajú v súkromnej sieti organizácie. Tieto brány sa používajú na vytvorenie toku údajov v službe Power Query Online, čo je webová verzia doplnku Power Query, ako aj na obnovenie toku údajov.
Položka 4. Toky údajov sa vyvíjajú pomocou doplnku Power Query Online. Vďaka známemu rozhraniu Power Query v Power Query Online je prechod z aplikácie Power BI Desktop jednoduchý.
Položka 5. Tok údajov sa uloží ako položka v pracovnom priestore vyhradenom pre ukladanie a zabezpečenie tokov údajov. Na zachovanie aktuálnosti údajov je potrebný plán obnovenia toku údajov (nie je znázornený v scenárovom diagrame).
Položka 6. Tok údajov môžu tvorcovia obsahu opakovane používať ako zdroj údajov a iné sémantické modely, ktoré sa môžu nachádzať v rôznych pracovných priestoroch.
Položka 7. Tvorca sémantických modelov vyvíja nový dátový model s použitím aplikácie Power BI Desktop. Tvorca sémantických modelov môže používať všetky funkcie Power Query v rámci aplikácie Power BI Desktop. Voliteľne môžu použiť ďalšie kroky dotazu na ďalšiu transformáciu údajov toku údajov alebo zlúčenie výstupu toku údajov.
Položka 8. Keď je to pripravené, autor sémantických modelov publikuje súbor aplikácie Power BI Desktop (.pbix), ktorý obsahuje dátový model na služba Power BI. Obnovenie pre sémantický model sa spravuje oddelene od toku údajov (nie je znázornené v diagrame scenára).
Položka 9. Ostatní tvorcovia samoobslužných sémantických modelov môžu vytvárať nové dátové modely v aplikácii Power BI Desktop pomocou toku údajov ako zdroja údajov.
Položka 10. Na portáli na správu môžu správcovia služby Power BI nastaviť pripojenia Azure na ukladanie údajov toku údajov vo svojom konte služby Azure Data Lake Storage Gen2 (ADLS Gen2). Nastavenia zahŕňajú priradenie konta úložiska na úrovni nájomníka a povolenie povolení ukladacieho priestoru na úrovni pracovného priestoru.
Položka 11. Správcovia služby Power BI spravujú nastavenia na portáli na správu.
Položka 12. V predvolenom nastavení toky údajov ukladajú údaje pomocou interného úložiska, ktoré spravuje služba Power BI. Výstup údajov môže byť voliteľne uložený v konte ADLS Gen2 organizácie. Tento typ úložiska sa niekedy nazýva preniesť si vlastné dátové jazero. Výhodou ukladania údajov toku údajov v dátovom jazere je, že k nim bude možné pristupovať a využívať ich iné nástroje BI.
Položka 13. Údaje toku údajov v službe ADLS Gen2 sa ukladajú do kontajnera špecifického pre Power BI, ktorý je známy ako systém súborov. V tomto kontajneri sa nachádza priečinok pre každý pracovný priestor. Pre každý tok údajov sa vytvorí podpriečinok, ako aj pre každú tabuľku. Power BI vygeneruje snímku pri každom obnovení údajov toku údajov. Snímky sú samopopisné a obsahujú metaúdaje a údajové súbory.
Položka 14. Správcovia Azure spravujú povolenia pre konto ADLS Gen2 organizácie.
Položka 15. Správcovia služby Power BI dohliadajú a monitorujú činnosť v služba Power BI.

Prepitné

Odporúčame vám tiež skontrolovať rozšírený scenár využitia prípravy údajov. Stavia na konceptoch zavedených v tomto scenári.

Kľúčové body

Nižšie sú uvedené niektoré kľúčové body, ktoré treba zdôrazniť o scenári samoobslužnej prípravy údajov.

Toky údajov

Tok údajov obsahuje kolekciu tabuliek (známych aj ako entity). Všetko potrebné na vytvorenie toku údajov sa vykonáva v power query Online. Toky údajov môžete vytvoriť vo viacerých produktoch vrátane služieb Power Apps, Dynamics 365 Customer Insights a Power BI.

Poznámka

V služba Power BI nie je možné vytvoriť toky údajov v osobnom pracovnom priestore.

Podpora tvorcov sémantických modelov

Diagram scenára znázorňuje použitie toku údajov služby Power BI na poskytnutie pripravených údajov iným tvorcom samoobslužného sémantického modelu.

Poznámka

Sémantický model používa tok údajov ako zdroj údajov. Zostava sa nemôže pripojiť priamo k toku údajov.

Tu sú niektoré výhody používania tokov údajov služby Power BI:

  • Tvorcovia sémantických modelov používajú rovnaké známe rozhranie Power Query, ktoré sa nachádza v aplikácii Power BI Desktop.
  • Logiku prípravy a transformácie údajov definovanú tokom údajov možno opätovne použiť mnohokrát, pretože sa centralizuje.
  • Keď sa v toku údajov vykonajú zmeny logiky prípravy údajov, nemusí sa vyžadovať aktualizácia závislých dátových modelov. Odstránenie alebo premenovanie stĺpcov alebo zmena typov údajov stĺpca bude vyžadovať aktualizáciu závislých dátových modelov.
  • Vopred pripravené údaje možno jednoducho sprístupniť tvorcom sémantických modelov služby Power BI. Opätovné použitie je užitočné najmä pre bežne používané tabuľky, najmä pre tabuľky dimenzií, ako sú dátum, zákazník a produkt.
  • Úroveň úsilia, ktoré vyžadujú tvorcovia sémantických modelov, je znížená, pretože práca na príprave údajov bola oddelená od práce modelovania údajov.
  • Menej sémantických tvorcov modelov potrebuje priamy prístup k zdrojovým systémom. Zdrojové systémy môžu byť zložité na dotazovanie a môžu vyžadovať špecializované povolenia na prístup.
  • Počet obnovení vykonaných v zdrojových systémoch je nižší, pretože sémantické obnovenia modelu sa pripájajú k tokom údajov, a nie k zdrojovým systémom, z ktorých toky údajov extrahujú údaje.
  • Údaje toku údajov predstavujú snímku v čase a podporujú konzistentnosť, keď ich používa viacero sémantických modelov.
  • Oddelením logiky prípravy údajov do tokov údajov môžete pomôcť zlepšiť úspešnosť obnovenia sémantického modelu. Ak obnovenie toku údajov zlyhá, sémantické modely sa obnovia pomocou posledného úspešného obnovenia toku údajov.

Prepitné

Vytvorenie tabuliek toku údajov použitím princípov návrhu hviezdicovej schémy . Návrh hviezdicovej schémy je vhodný na vytváranie sémantických modelov služby Power BI. Výstup toku údajov tiež spresnite, aby sa použili popisné názvy a používali konkrétne typy údajov. Tieto techniky podporujú konzistentnosť v závislých sémantických modeloch a pomáhajú znižovať množstvo práce, ktorú tvorcovia sémantických modelov potrebujú.

Flexibilita tvorcu sémantických modelov

Keď sa tvorca sémantického modelu pripojí k toku údajov v aplikácii Power BI Desktop, tvorca nie je obmedzený na použitie presného výstupu toku údajov. Stále majú k dispozícii všetky funkcie doplnku Power Query. Táto funkcia je užitočná, ak je potrebná ďalšia príprava údajov alebo ak si údaje vyžadujú ďalšiu transformáciu.

Pokročilé funkcie toku údajov

Existuje mnoho techník návrhu, vzorov a osvedčených postupov pre toky údajov, pomocou ktorých môžete prejsť zo samoobslužných postupov na podnikové. Toky údajov v pracovnom priestore, ktorý má režim licencie nastavený na Premium na používateľa, kapacitu Premium alebo fabric, môžu využívať pokročilé funkcie.

Dôležité

V čase, keď sa tento článok týka služby Power BI Premium alebo jej predplatných kapacity (skladové jednotky SKU P). Spoločnosť Microsoft v súčasnosti konsoliduje možnosti nákupu a vyradí skladové jednotky SKU služby Power BI Premium na kapacitu. Noví a existujúci zákazníci by namiesto toho mali zvážiť zakúpenie predplatného kapacity služby Fabric (skladové jednotky F SKU).

Ďalšie informácie nájdete v téme Dôležitá aktualizácia pre licencie Power BI Premium a Power BI Premium: najčastejšie otázky.

Poznámka

Jednou z pokročilých funkcií je prírastkové obnovenie pre toky údajov. Hoci prírastkové obnovenie pre sémantické modely je funkciou služby Power BI Pro, prírastkové obnovenie pre toky údajov je funkciou Premium.

Ďalšie informácie o pokročilých funkciách toku údajov nájdete v scenári použitia pokročilej prípravy údajov.

Obnovenie toku údajov a sémantického modelu

Ako už bolo spomenuté, tok údajov je zdrojom údajov pre sémantické modely. Vo väčšine prípadov je zapojených viacero plánov obnovenia údajov: jeden pre tok údajov a jeden pre každý sémantický model. Prípadne je možné použiť režim DirectQuery zo sémantického modelu do toku údajov, čo je funkcia Premium (nie je znázornená v diagrame scenára).

Azure Data Lake Storage Gen2

V Microsoft Azure je konto ADLS Gen2 konkrétny typ konta Azure Storage, ktoré má povolený hierarchický priestor názvov. ADLS Gen2 má výhody výkonu, správy a zabezpečenia pri prevádzke analytických služieb. V predvolenom nastavení používajú toky údajov služby Power BI interné úložisko, čo je vstavané konto dátového jazera spravované služba Power BI. Ak chcete, organizácie môžu preniesť svoje vlastné dátové jazero pripojením k kontu služby ADLS Gen2 svojej organizácie.

Tu sú niektoré výhody používania konta dátového jazera organizácie:

  • K údajom uloženým tokom údajov služby Power BI môžu (voliteľne) pristupovať z dátového jazera iní používatelia alebo procesy. Je to užitočné pri opätovnom použití toku údajov mimo služby Power BI. K údajom by napríklad mohla pristupovať služba Azure Data Factory.
  • Údaje v dátovom jazere môžu (voliteľne) spravovať iné nástroje alebo systémy. V tomto prípade by služba Power BI mohla údaje využívať namiesto ich spravovania (nie je znázornená v scenárovom diagrame).

Úložisko na úrovni nájomníka

Časť Pripojenia Azure na portáli na správu obsahuje nastavenie na konfiguráciu pripojenia ku kontu služby ADLS Gen2. Konfigurácia tohto nastavenia umožňuje priniesť vlastné dátové jazero. Po nastavení môžete nastaviť pracovné priestory tak, aby používali dané konto dátového jazera.

Dôležité

Nastavenie pripojení v službe Azure neznamená, že všetky toky údajov v nájomníkovi služby Power BI sú predvolene uložené v tomto konte. Ak chcete použiť explicitné konto úložiska (namiesto interného úložiska), každý pracovný priestor musí byť špeciálne pripojený.

Pred vytvorením tokov údajov v pracovnom priestore je nevyhnutné nastaviť pripojenia v službe Azure pracovného priestoru. Rovnaké konto úložiska Azure sa používa na zálohovanie sémantických modelov služby Power BI.

Úložisko na úrovni pracovného priestoru

Správca služby Power BI môže nakonfigurovať nastavenie umožňujúce povolenia úložiska na úrovni pracovného priestoru (v časti Pripojenia Azure na portáli na správu). Ak je toto nastavenie povolené, umožňuje správcom pracovných priestorov používať iné konto úložiska ako konto definované na úrovni nájomníka. Povolenie tohto nastavenia je užitočné najmä pre decentralizované organizačné jednotky, ktoré spravujú svoje vlastné dátové jazero v službe Azure.

Poznámka

Povolenie na ukladanie na úrovni pracovného priestoru na portáli na správu sa vzťahuje na všetky pracovné priestory v nájomníkovi služby Power BI.

Formát modelu Common Data Model

Údaje v konte služby ADLS Gen2 sú uložené v štruktúre modelu Common Data Model (CDM). Štruktúra CDM je formát metaúdajov, ktorý diktuje spôsob uloženia samopopisnej schémy, ako aj údajov. Štruktúra CDM umožňuje sémantickú konzistentnosť vo formáte, ktorý je štandardizovaný na zdieľanie údajov v mnohých aplikáciách (nie je znázornený v scenárovom diagrame).

Publikovanie do samostatných pracovných priestorov

Publikovanie toku údajov do pracovného priestoru oddeleného od miesta uloženia závislých sémantických modelov má niekoľko výhod. Jednou z výhod je jasnosť toho, kto je zodpovedný za spravovanie typov obsahu (ak máte rôznych ľudí, ktorí spracovávajú rôzne zodpovednosti). Ďalšou výhodou je, že každému typu obsahu je možné priradiť povolenia pre konkrétne pracovné priestory.

Poznámka

V služba Power BI nie je možné vytvoriť toky údajov v osobnom pracovnom priestore.

Scenár pokročilého používania prípravy údajov popisuje, ako nastaviť viacero pracovných priestorov s cieľom poskytnúť lepšiu flexibilitu pri podpore samoobslužných tvorcov na úrovni podniku.

Nastavenie brány

Lokálna brána údajov sa zvyčajne vyžaduje na pripojenie k zdrojom údajov, ktoré sa nachádzajú v súkromnej sieti organizácie alebo virtuálnej sieti.

Brána údajov sa vyžaduje v prípade, že:

  • Vytvorenie toku údajov v doplnku Power Query Online, ktorý sa pripája k údajom súkromnej organizácie.
  • Obnovenie toku údajov, ktorý sa pripája k údajom súkromnej organizácie.

Prepitné

Toky údajov vyžadujú centralizovanú bránu údajov v štandardnom režime. Brána v osobnom režime nie je pri práci s tokmi údajov podporovaná.

Dohľad nad systémom

Denník aktivity zaznamenáva aktivity používateľa, ktoré sa vyskytujú v služba Power BI. Správcovia služby Power BI môžu pomocou údajov denníka aktivity zhromaždených na vykonávanie auditovania porozumieť vzorom používania a ich prijatiu. Denník aktivity je tiež cenný na podporu snáhod o riadení, bezpečnostných auditov a požiadaviek na dodržiavanie súladu. V prípade scenára samoobslužnej prípravy údajov je užitočné najmä sledovať používanie tokov údajov.

V nasledujúcom článku v sérii získate informácie o scenári použitia pokročilej prípravy údajov.