Scenáre používania služby Power BI: Pokročilá príprava údajov

Článok
11/10/2023

Poznámka

Tento článok je súčasťou série článkov k plánovaniu implementácie služby Power BI. Táto séria sa zameriava predovšetkým na prostredie služby Power BI v rámci služby Microsoft Fabric. Úvod do série nájdete v téme Plánovanie implementácie služby Power BI.

Príprava údajov (označovaná aj ako ETL, čo je skratka pre extrahovanie, transformáciu a načítanie) zahŕňa často veľké úsilie. Čas, zručnosti a úsilie spojené s zhromažďovaním, čistením, kombinovaním a obohacovaním údajov závisia od kvality a štruktúry zdrojových údajov.

Investovanie času a úsilia do centralizovanej prípravy údajov pomáha:

Zlepšenie opätovnej použiteľnosti a získanie maximálnej hodnoty z úsilia o prípravu údajov.
Zlepšiť schopnosť poskytovať konzistentné údaje viacerým tímom.
Znížte úroveň úsilia, ktorú vyžadujú iní tvorcovia obsahu.
Dosiahnuť mierku a výkon.

Scenár rozšíreného využitia prípravy údajov sa rozbalí v scenári samoobslužnej prípravy údajov. Pokročilá príprava údajov sa týka zvýšenia opätovného používania tokov údajov viacerými používateľmi v rôznych tímoch a na rôzne prípady použitia.

Samostatné pracovné priestory usporiadané podľa účelu toku údajov sú užitočné, keď sa výstup toku údajov poskytuje viacerým sémantickým modelom (predtým známym ako množina údajov) tvorcom, najmä ak sú v rôznych tímoch v organizácii. Samostatné pracovné priestory sú tiež užitočné na spravovanie rolí zabezpečenia, keď sa ľudia, ktorí vytvárajú a spravujú toky údajov, líšia od ľudí, ktorí ich používajú.

Poznámka

Rozšírený scenár prípravy údajov je druhý zo scenárov prípravy údajov. Tento scenár vychádza z toho, čo sa dá urobiť s centralizovanými tokmi údajov, ako je popísané v scenári samoobslužnej prípravy údajov.

Pokročilý scenár prípravy údajov je jedným zo samoobslužných scenárov BI. Centralizovaný člen tímu však môže používať techniky podobne, ako je to popísané v scenári spravovaného samoobslužného bi . Úplný zoznam scenárov samoobslužných služieb nájdete v článku Scenáre používania služby Power BI.

Z dôvodu stručnosti nie sú niektoré aspekty popísané v téme Scenáre spolupráce s obsahom a doručovania zahrnuté v tomto článku. Ak chcete dokončiť pokrytie, prečítajte si tieto články ako prvé.

Diagram scenára

Tip

Odporúčame vám prezrieť si scenár použitia samoobslužnej prípravy údajov, ak ho nepoznáte. Na tomto scenári vychádza pokročilý scenár samoobslužnej prípravy údajov.

Rozšírený scenár prípravy údajov je zameraný na:

Použitie samostatných tokov údajov na základe účelu: pracovná verzia, transformácia alebo finálna verzia. Odporúčame používať skladacie stavebné bloky na získanie lepšieho opätovného použitia v rôznych kombináciách na podporu konkrétnych požiadaviek používateľov. Kompostovateľné stavebné bloky sú popísané ďalej v tomto článku.
Použitie samostatných pracovných priestorov, ktoré podporujú tvorcov tokov údajov alebo používateľov toku údajov. Modelári údajov, ktorí používajú toky údajov, môžu byť v rôznych tímoch a/alebo majú rôzne prípady použitia.
Používanie prepojených tabuliek (nazývaných aj prepojené entity), vypočítaných tabuliek (známych aj ako vypočítané entity) a rozšíreného výpočtového zariadenia.

Poznámka

Niekedy sa pojmy sémantický model a dátový model používajú zameniteľne. Vo všeobecnosti ide z služba Power BI perspektívy o sémantický model. Z hľadiska vývoja sa označuje ako dátový model (alebo krátky model ). V tomto článku majú oba pojmy rovnaký význam. Podobne to znamená, že tvorca sémantických modelov a modelár údajov majú rovnaký význam.

Nasledujúci diagram znázorňuje prehľad najčastejších akcií používateľa a súčastí služby Power BI, ktoré podporujú pokročilý scenár prípravy údajov.

Tip

Odporúčame stiahnuť scenárový diagram , ak by ste ho chceli vložiť do prezentácie, dokumentácie alebo blogového príspevku, alebo ho vytlačiť ako plagát steny. Keďže ide o obrázok SVG (Scalable Vector Graphics), môžete ho škálovať nahor alebo nadol bez straty kvality.

Diagram scenára znázorňuje nasledujúce akcie, nástroje a funkcie používateľa:

Položka	Popis
	Tvorca toku údajov vytvorí kolekciu tabuliek v rámci toku údajov. V prípade toku údajov, ktorý je určený na opätovné použitie, je bežné (ale nevyžaduje sa), že tvorca patrí do centralizovaného tímu, ktorý podporuje používateľov naprieč hranicami organizácie (napríklad IT, podnikové služby BI alebo Centrum excelentnosti).
	Tok údajov sa pripája k údajom z jedného alebo viacerých zdrojov údajov.
	Niektoré zdroje údajov môžu na obnovenie údajov vyžadovať lokálnu bránu údajov alebo bránu VNet, napríklad tie, ktoré sa nachádzajú v súkromnej sieti organizácie. Tieto brány sa používajú na vytvorenie toku údajov v službe Power Query Online a na obnovenie toku údajov.
	Všetky zúčastnené pracovné priestory majú nastavený režim licencie na kapacitu Fabric, kapacitu Premium, Premium na používateľa alebo Embedded. Tieto režimy licencií umožňujú používať prepojené tabuľky a vypočítané tabuľky v pracovných priestoroch, ktoré sú potrebné v tomto scenári.
	Tvorcovia tokov údajov vyvíjajú toky údajov pomocou nástroja Power Query Online, čo je webová verzia doplnku Power Query.
	Fázový tok údajov sa vytvorí v pracovnom priestore vyhradenom pre centralizovanú správu tokov údajov. Fázový tok údajov skopíruje nespracované údaje tak, ako sú zo zdroja. Transformácie sa použijú len v niekoľkých, ak vôbec.
	V tom istom pracovnom priestore sa vytvorí transformačný tok* údajov (označovaný aj ako vyčistený tok* údajov). Údaje sú zdrojom údajov pomocou prepojených tabuliek s fázovaným tokom údajov. Vypočítané tabuľky zahŕňajú kroky transformácie , ktoré pripravujú, vyčistia a pretvoria údaje.
	Tvorcovia tokov údajov majú prístup k správe obsahu v pracovnom priestore vyhradenom pre centralizovanú správu tokov údajov.
	Existuje jeden alebo viac pracovných priestorov, ktorých cieľom je poskytnúť prístup ku konečnému toku údajov, ktorý poskytuje údaje pripravené na produkciu do dátových modelov.
	Konečný tok údajov sa vytvorí v pracovnom priestore, ktorý je k dispozícii pre modelárov údajov. Údaje sú zdrojom údajov pomocou prepojených tabuliek s tokom údajov transformácie. Vypočítané tabuľky predstavujú pripravený výstup viditeľný pre modelárov údajov, ktorým bola udelená rola čitateľa pracovného priestoru.
	Tvorcovia sémantických modelov (ktorí spotrebúvajú výstup toku údajov) majú prístup čitateľa k pracovnému priestoru, ktorý obsahuje výstup konečného toku údajov. Tvorcovia toku údajov majú tiež prístup k správe a publikovaniu obsahu v pracovnom priestore (nie je znázornený v diagrame scenára).
	Tvorcovia sémantických modelov používajú konečný tok údajov ako zdroj údajov pri vývoji dátového modelu v aplikácii Power BI Desktop. Keď je to pripravené, autor sémantických modelov publikuje súbor aplikácie Power BI Desktop (.pbix), ktorý obsahuje dátový model v služba Power BI (nie je znázornený v scenárovom diagrame).
	Správcovia tkaniny spravujú nastavenia na portáli Spravovanie.
	Na portáli Spravovanie môžu správcovia služby Power BI nastaviť pripojenia azure na ukladanie údajov toku údajov vo svojom konte služby Azure Data Lake Storage Gen2 (ADLS Gen2). Nastavenia zahŕňajú priradenie konta úložiska na úrovni nájomníka a povolenie povolení ukladacieho priestoru na úrovni pracovného priestoru.
	Toky údajov predvolene ukladajú údaje pomocou interného úložiska spravovaného služba Power BI. Výstup údajov môže byť voliteľne uložený v konte ADLS Gen2 organizácie.
	Správcovia látok dohliadajú a monitorujú aktivitu na portáli služby Fabric.

Kľúčové body

Nižšie sú uvedené niektoré kľúčové body, ktoré treba zdôrazniť o pokročilom scenári prípravy údajov.

Toky údajov

Tok údajov obsahuje kolekciu tabuliek (známych aj ako entity). Každá tabuľka je definovaná dotazom, ktorý obsahuje kroky prípravy údajov potrebné na načítanie tabuľky s údajmi. Všetko potrebné na vytvorenie toku údajov sa vykonáva v power query Online. Tok údajov môžete vytvoriť vo viacerých produktoch vrátane služieb Power Apps, Dynamics 365 Customer Prehľady a Power BI.

Poznámka

V služba Power BI nie je možné vytvoriť toky údajov v osobnom pracovnom priestore.

Typy tokov údajov

Použitie zložiteľných stavebných blokov predstavuje princíp návrhu, ktorý vám umožní spravovať, nasadzovať a zabezpečovať systémové súčasti a následne ich používať v rôznych kombináciách. Vytvorenie modulárnych, samostatných tokov údajov, ktoré sú špecifické pre konkrétny účel, je najlepším postupom. Pomáhajú dosiahnuť opätovné použitie údajov a podnikovú škálu. Správa a testovanie tokov údajov je takisto jednoduchšia.

V scenárovom diagrame sú zobrazené tri typy tokov údajov: pracovná verzia toku údajov, transformačného toku údajov a konečného toku údajov.

Pracovná pracovná tok údajov

Fázový tok údajov (niekedy sa tok údajov extrakcie údajov) skopíruje nespracované údaje tak, ako sú zo zdroja. Extrahovanie nespracovaných údajov s minimálnou transformáciou znamená, že toky údajov následnej transformácie (popísané ďalej) môžu ako svoj zdroj použiť fázový tok údajov. Táto modulárnosť je užitočná v týchto prípadoch:

Prístup k zdroju údajov je obmedzený na zúženie časových okien a/alebo na niekoľko používateľov.
Požaduje sa časová konzistencia, aby sa zabezpečilo, že všetky následné toky údajov (a súvisiace sémantické modely) poskytujú údaje, ktoré boli extrahované zo zdroja údajov súčasne.
Zníženie počtu dotazov odoslaných do zdroja údajov je potrebné z dôvodu obmedzení zdrojového systému alebo jeho schopnosti podporovať analytické dotazy.
Kópia zdrojových údajov je užitočná pre procesy zosúladenia a overovanie kvality údajov.

Transformácia toku údajov

Transformačný tok údajov (niekedy nazývaný vyčistený tok údajov) čerpá svoje údaje z prepojených tabuliek, ktoré sa pripájajú k fázovanému toku údajov. Najvhodnejším postupom je oddeliť transformácie od procesu extrakcie údajov.

Transformačný tok údajov obsahuje všetky kroky transformácie potrebné na prípravu a zmenu štruktúry údajov. V tejto vrstve sa však stále kladie dôraz na opätovnú využiteľnosť, aby sa zabezpečilo, že tok údajov je vhodný na viaceré prípady a účely použitia.

Konečný tok údajov

Hotový výstup predstavuje konečný tok údajov. Na základe prípadu a účelu použitia sa môžu vyskytnúť ďalšie transformácie. V prípade analýzy je preferovaným návrhom konečného toku údajov tabuľka hviezdicovej schémy (dimenzia alebo fakt).

Vypočítané tabuľky sú viditeľné pre modelárov údajov, ktorým bola udelená rola čitateľa pracovného priestoru. Tento typ tabuľky je popísaný v nižšie popísaných typoch tabuliek toku údajov.

Poznámka

Dátové jazerá majú často zóny, ako napríklad bronz, striebro a zlato. Tri typy tokov údajov predstavujú podobný vzor návrhu. Ak chcete prijímať čo najlepšie rozhodnutia o architektúre údajov, rozhodnite sa, kto bude spravovať údaje, očakávané použitie údajov a úroveň zručností vyžadovanú ľuďmi, ktorí pristupujú k údajom.

Pracovné priestory pre toky údajov

Ak by ste vytvorili všetky toky údajov v jednom pracovnom priestore, výrazne by to obmedzovalo rozsah opätovnej použiteľnosti. Použitie jedného pracovného priestoru tiež obmedzuje možnosti zabezpečenia, ktoré sú k dispozícii, keď podporujete viac typov používateľov v rámci tímov a/alebo v rôznych prípadoch použitia. Odporúčame používať viacero pracovných priestorov. Poskytujú lepšiu flexibilitu v prípade, že potrebujete podporovať samoobslužných tvorcov z rôznych oblastí organizácie.

Medzi dva typy pracovných priestorov zobrazených v scenárovom diagrame patria:

Pracovný priestor 1: Ukladá centrálne spravované toky údajov (niekedy označované ako serverový pracovný priestor). Obsahuje fázové aj transformačné toky údajov, pretože ich spravujú tí istí ľudia. Tvorcovia toku údajov často pochádzajú z centralizovaného tímu, ako je napríklad IT, BI alebo Centrum excelentnosti. Mal by byť priradený k role správcu pracovného priestoru, člena alebo prispievateľa.
Pracovný priestor 2: Ukladá a poskytuje výstup konečného toku údajov spotrebiteľom údajov (niekedy sa označuje ako používateľský pracovný priestor). Tvorcovia sémantických modelov sú často samoobslužní analytici, power používatelia alebo občianski dátoví inžinieri. Mali by byť priradení k role čitateľa pracovného priestoru, pretože potrebujú len spotrebúvať výstup konečného toku údajov. Ak chcete podporovať tvorcov sémantických modelov z rôznych oblastí organizácie, môžete vytvoriť množstvo pracovných priestorov, ako je tento, na základe potrieb prípadu a zabezpečenia.

Tip

Odporúčame vám preskúmať spôsoby podpory tvorcov sémantických modelov, ako je to popísané v scenári samoobslužnej prípravy údajov. Je dôležité vedieť, že tvorcovia sémantických modelov môžu aj naďalej využívať všetky funkcie Power Query v rámci aplikácie Power BI Desktop. Môžu si vybrať, či pridajú kroky dotazu na ďalšiu transformáciu údajov toku údajov alebo zlúčia výstup toku údajov s inými zdrojmi.

Typy tabuliek toku údajov

V scenárovom diagrame sú znázornené tri typy tabuliek toku údajov (známe aj ako entity).

Štandardná tabuľka: Dotazuje externý zdroj údajov, napríklad databázu. V scenárovom diagrame sú štandardné tabuľky znázornené vo vnášaní toku údajov.
Prepojená tabuľka: Odkazuje na tabuľku z iného toku údajov. Prepojená tabuľka ne duplikuje údaje. Namiesto toho umožňuje opätovné použitie štandardnej tabuľky viackrát na viaceré účely. Prepojené tabuľky sa divákom pracovného priestoru nezobrazujú, pretože dedia povolenia z pôvodného toku údajov. V scenárovom diagrame sú prepojené tabuľky znázornené dvakrát:
- V transformačnom toku údajov na prístup k údajom vo vnášaní toku údajov.
- V konečnom toku údajov na prístup k údajom v toku údajov transformácie.
Vypočítaná tabuľka: Vykoná ďalšie výpočty s použitím iného toku údajov ako zdroja. Vypočítané tabuľky umožňujú prispôsobenie výstupu podľa potreby v prípadoch individuálneho použitia. V scenárovom diagrame sú vypočítané tabuľky znázornené dvakrát:
- V transformačnom toku údajov na vykonávanie bežných transformácií.
- V konečnom toku údajov na poskytnutie výstupu sémantickým tvorcom modelu. Keďže vypočítané tabuľky údaje znovu pretrvávajú (po obnovení toku údajov), modelári údajov majú prístup k vypočítaným tabuľkám v konečnom toku údajov. V tomto prípade by sa modelárov údajov mal udeliť prístup k role čitateľa pracovného priestoru.

Poznámka

Existuje mnoho techník návrhu, vzorov a osvedčených postupov , vďaka ktorým môžu toky údajov prejsť zo samoobslužných postupov na podnikové. Pokročilé funkcie môžu využívať aj toky údajov v pracovnom priestore, ktorý má režim licencie nastavený na Premium na používateľa alebo kapacitu Premium. Prepojené tabuľky a vypočítané tabuľky (známe aj ako entity) sú dve pokročilé funkcie, ktoré sú nevyhnutné na zvýšenie opätovnej použiteľnosti tokov údajov.

Rozšírené výpočtové zariadenie

Rozšírené výpočtové zariadenie je pokročilá funkcia, ktorá je k dispozícii v službe Power BI Premium.

Dôležité

V čase, keď sa tento článok týka služby Power BI Premium alebo jej predplatných kapacity (skladové jednotky SKU P). Spoločnosť Microsoft v súčasnosti konsoliduje možnosti nákupu a vyradí skladové jednotky SKU služby Power BI Premium na kapacitu. Noví a existujúci zákazníci by namiesto toho mali zvážiť zakúpenie predplatného kapacity služby Fabric (skladové jednotky F SKU).

Ďalšie informácie nájdete v téme Dôležitá aktualizácia pre licencie Power BI Premium a Power BI Premium: najčastejšie otázky.

Rozšírený nástroj na výpočet zlepšuje výkon prepojených tabuliek (v rámci toho istého pracovného priestoru), ktoré odkazujú na tok údajov (prepojenie na). Ak chcete získať maximálne výhody z rozšíreného výpočtového zariadenia:

Rozdeľte fázové a transformačné toky údajov.
Použite ten istý pracovný priestor na ukladanie pracovných tokov údajov a ich transformácie.
Použite komplexné operácie, ktoré dokážu v krokoch dotazu dotazov postupne posúvať. Určenie priority postupných operácií môže pomôcť pri dosahovaní najlepšieho výkonu obnovenia.
Na skrátenie trvaní obnovenia a spotreby zdroja použite prírastkové obnovenie .
Vykonať testovanie včas a často počas fázy vývoja.

Obnovenie toku údajov a sémantického modelu

Tok údajov je zdrojom údajov pre sémantické modely. Vo väčšine prípadov je zapojených viacero plánov obnovenia údajov: jeden pre každý tok údajov a jeden pre každý sémantický model. Prípadne je možné použiť režim DirectQuery zo sémantického modelu do toku údajov, čo vyžaduje Power BI Premium a rozšírené výpočtové zariadenie (nie je znázornené v scenárovom diagrame).

Azure Data Lake Storage Gen2

Konto úložiska ADLS Gen2 je konkrétny typ konta úložiska Azure, ktoré má povolený hierarchický priestor názvov. ADLS Gen2 má výhody výkonu, správy a zabezpečenia pri prevádzke analytických služieb. V predvolenom nastavení používajú toky údajov služby Power BI interné úložisko, čo je vstavané konto dátového jazera spravované služba Power BI. Ak chcete, organizácie môžu preniesť svoje vlastné dátové jazero pripojením ku kontu služby ADLS Gen2 vo svojej organizácii.

Tu je niekoľko výhod používania vlastného dátového jazera:

Používatelia (alebo procesy) majú priamy prístup k údajom toku údajov uloženým v úlomku data lake. Je to užitočné pri opätovnom použití toku údajov mimo služby Power BI. Azure Data Factory môže napríklad získať prístup k údajom toku údajov.
Údaje v dátovom jazere môžu spravovať iné nástroje alebo systémy. V tomto prípade by služba Power BI mohla údaje využívať namiesto ich spravovania (nie je znázornená v scenárovom diagrame).

Keď používate prepojené tabuľky alebo vypočítané tabuľky, uistite sa, že každý pracovný priestor je priradený k rovnakému kontu úložiska ADLS Gen2.

Poznámka

Údaje toku údajov v službe ADLS Gen2 sú uložené v kontajneri špecifickom pre Power BI. Tento kontajner je znázornený v scenári použitia samoobslužnej prípravy údajov.

Spravovanie nastavení portálu

Na portáli Spravovanie je potrebné spravovať dve dôležité nastavenia:

Pripojenia Azure: Časť pripojenia Azure na portáli Spravovanie obsahuje nastavenie na nastavenie pripojenia ku kontu služby ADLS Gen2. Toto nastavenie umožňuje správcovi služby Power BI preniesť vlastné dátové jazero do tokov údajov. Po nakonfigurovaní môžu pracovné priestory používať dané konto dátového jazera na ukladanie.
Úložisko na úrovni pracovného priestoru: Správca služby Power BI môže nastaviť povolenia pre úložisko na úrovni pracovného priestoru. Keď je toto nastavenie povolené, správcovia pracovného priestoru môžu používať iné konto úložiska ako konto nastavené na úrovni nájomníka. Povolenie tohto nastavenia je užitočné pre decentralizované organizačné jednotky, ktoré spravujú svoje vlastné dátové jazero v službe Azure.

Nastavenie brány

Lokálna brána údajov sa zvyčajne vyžaduje na pripojenie k zdrojom údajov, ktoré sa nachádzajú v súkromnej sieti organizácie alebo virtuálnej sieti.

Brána údajov sa vyžaduje v prípade, že:

Vytvorenie toku údajov v doplnku Power Query Online, ktorý sa pripája k údajom súkromnej organizácie.
Obnovenie toku údajov, ktorý sa pripája k údajom súkromnej organizácie.

Tip

Toky údajov vyžadujú centralizovanú bránu údajov v štandardnom režime. Brána v osobnom režime nie je pri práci s tokmi údajov podporovaná.

Dohľad nad systémom

Denník aktivity zaznamenáva aktivity používateľa, ktoré sa vyskytujú v služba Power BI. Správcovia služby Power BI môžu pomocou údajov denníka aktivity zhromaždených na vykonávanie auditovania porozumieť vzorom používania a ich prijatiu. Denník aktivity je tiež cenný na podporu snáhod o riadení, bezpečnostných auditov a požiadaviek na dodržiavanie súladu. V scenári pokročilej prípravy údajov sú údaje denníka aktivity užitočné na sledovanie spravovania a používania tokov údajov.

Ďalšie užitočné scenáre, ktoré vám pomôžu pri rozhodnutiach o implementácii služby Power BI, nájdete v článku Scenáre používania služby Power BI.

Zdieľať cez

Scenáre používania služby Power BI: Pokročilá príprava údajov

Diagram scenára

Kľúčové body

Toky údajov

Typy tokov údajov

Pracovná pracovná tok údajov

Transformácia toku údajov

Konečný tok údajov

Pracovné priestory pre toky údajov

Typy tabuliek toku údajov

Rozšírené výpočtové zariadenie

Obnovenie toku údajov a sémantického modelu

Azure Data Lake Storage Gen2

Spravovanie nastavení portálu

Nastavenie brány

Dohľad nad systémom

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Scenáre používania služby Power BI: Pokročilá príprava údajov

Diagram scenára

Kľúčové body

Toky údajov

Typy tokov údajov

Pracovná pracovná tok údajov

Transformácia toku údajov

Konečný tok údajov

Pracovné priestory pre toky údajov

Typy tabuliek toku údajov

Rozšírené výpočtové zariadenie

Obnovenie toku údajov a sémantického modelu

Azure Data Lake Storage Gen2

Spravovanie nastavení portálu

Nastavenie brány

Dohľad nad systémom

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií