Dimenzionálne modelovanie v sklade služby Microsoft Fabric
Vzťahuje sa na:✅ koncový bod analýzy SQL a sklad v službe Microsoft Fabric
Tento článok je prvý zo série o dimenzionálnom modelovaní v rámci skladu. Poskytuje praktické usmernenie pre sklad v službe Microsoft Fabric, čo je prostredie, ktoré podporuje množstvo funkcií T-SQL, ako napríklad vytváranie tabuliek a spravovanie údajov v tabuľkách. Takže máte úplnú kontrolu nad vytváraním tabuliek dimenzionálnych modelov a ich načítaním s údajmi.
Poznámka
V tomto článku termín sklad údajov odkazuje na podnikový sklad údajov, ktorý poskytuje komplexnú integráciu kritických údajov v rámci organizácie. Naopak samostatný pojem sklad odkazuje na sklad služby Fabric, čo je softvér ako relačná databáza SaaS (SaaS), ktorá ponúka relačnú databázu, ktorú môžete použiť na implementáciu skladu údajov. Pre objasnenie uvádzame v tomto článku názov skladu služby Fabric.
Prepitné
Ak ste neskúsení dimenzionálnym modelovaním, pouvažujte nad tým, že prvým krokom je táto séria článkov. Jeho cieľom nie je poskytnúť kompletné informácie o návrhu dimenzionálneho modelovania. Ďalšie informácie nájdete priamo v široko prijatom publikovanom obsahu, napríklad : The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (Súprava nástrojov skladu údajov: Definitívny sprievodca dimenzionálnym modelovaním ) (3. vydanie, 2013), Ralph Kimball a ďalší.
Návrh hviezdicovej schémy
Hviezdicová schéma predstavuje techniku návrhu dimenzionálneho modelovania , ktorú prijali sklady relačných údajov. Odporúča sa navrhnúť prístup, ktorý treba pri vytváraní skladu služby Fabric vykonať. Hviezdicová schéma obsahuje tabuľky faktov a tabuľky dimenzií.
- Tabuľky dimenzií popisujú entity relevantné pre vašu organizáciu a požiadavky na analýzu. Všeobecne predstavujú veci, ktoré modelujete. Môže ísť o produkty, ľudí, miesta alebo iný koncept vrátane dátumu a času. Ďalšie informácie a najvhodnejšie postupy pri navrhovaní nájdete v téme Tabuľky dimenzií v tejto sérii.
- Tabuľky faktov ukladajú merania súvisiace s pozorovaniami alebo udalosťami. Môžu ukladať predajné objednávky, zostatky skladových zásob, výmenné kurzy, hodnoty teploty a ďalšie. Tabuľky faktov obsahujú kľúče dimenzií spolu s podrobnými hodnotami, ktoré možno agregovať. Ďalšie informácie a najvhodnejšie postupy pri navrhovaní nájdete v téme Tabuľky faktov v tejto sérii.
Návrh hviezdicovej schémy je optimalizovaný na analytické dotazy. Z tohto dôvodu sa považuje za predpoklad podnikových sémantických modelov služby Power BI. Analytické dotazy sa týkajú filtrovania, zoskupenia, zoraďovania a sumarizácie údajov. Údaje faktov sú zhrnuté v kontexte filtrov a zoskupení súvisiacich tabuliek dimenzií.
Dôvodom, prečo sa nazýva hviezdicová schéma, je to, že tabuľka faktov sa tvorí uprostred hviezdy, zatiaľ čo súvisiace tabuľky dimenzií tvoria body hviezdy.
Hviezdicová schéma často obsahuje viacero tabuliek faktov, a teda viacero hviezdičiek.
Dobre navrhnutá hviezdicová schéma prináša vysoký výkon (relačných) dotazov z dôvodu menšieho počtu spojení tabuliek a vyššej pravdepodobnosti užitočných indexov. Hviezdicová schéma tiež často vyžaduje nízku údržbu, pretože návrh skladu údajov sa vyvíja. Napríklad pridanie nového stĺpca do tabuľky dimenzií na podporu analýzy novým atribútom je pomerne jednoduchá úloha. Rovnako ako pridávanie nových faktov a dimenzií, ako sa rozsah skladu údajov vyvíja.
Pravidelne, možno denne, sa tabuľky v dimenzionálnom modeli aktualizujú a načítavajú pomocou procesu extrahovania, transformácie a načítania (ETL). Tento proces synchronizuje svoje údaje so zdrojovými systémami, ktoré ukladajú prevádzkové údaje. Ďalšie informácie nájdete v téme Načítanie tabuliek v tejto sérii.
Dimenzionálne modelovanie pre službu Power BI
V prípade podnikových riešení je dimenzionálny model v sklade služby Fabric odporúčaným predpokladom na vytvorenie sémantického modelu služby Power BI. Nielenže dimenzionálny model podporuje sémantický model, ale je aj zdrojom údajov pre iné skúsenosti, ako napríklad modely strojového učenia.
Za určitých okolností však možno nebude najlepším prístupom. Napríklad samoobslužní analytici, ktorí potrebujú slobodu a agilitu, aby mohli konať rýchlo a bez závislosti na IT, môžu vytvárať sémantické modely, ktoré sa pripájajú priamo k zdrojovým údajom. V takýchto prípadoch je teória dimenzionálneho modelovania stále relevantná. Táto teória pomáha analytikom vytvárať intuitívne a efektívne modely a zároveň sa vyhnete nutnosti vytvárať a načítať dimenzionálny model v sklade údajov. Namiesto toho sa kvázi dimenzionálny model môže vytvoriť pomocou doplnku Power Query, ktorý definuje logiku, ku ktorej sa treba pripojiť a transformovať zdrojové údaje na vytvorenie a načítanie tabuliek sémantických modelov. Ďalšie informácie nájdete v téme Vysvetlenie hviezdicovej schémy a dôležitosti pre Power BI.
Dôležité
Keď pomocou doplnku Power Query definujete dimenzionálny model v sémantickom modeli, nemôžete spravovať historické zmeny, ktoré by mohli byť potrebné na analýzu minulosti presne. Ak je to požiadavka, mali by ste vytvoriť sklad údajov a umožniť pravidelné procesy ETL zaznamenávať a vhodným spôsobom ukladať zmeny dimenzií.
Plánovanie skladu údajov
K vytvoreniu skladu údajov a k návrhu modelu dimenzie by ste sa mali pristupovať ako k vážnemu a dôležitému záväzku. Je to spôsobené tým, že sklad údajov je základnou súčasťou vašej údajovej platformy. Mala by byť solídnym základom, ktorý podporuje analýzy a vytváranie zostáv, a teda aj rozhodovanie, pre celú organizáciu.
Na tento účel by sa mal váš sklad údajov snažiť uložiť kvalitu, zhodné a historicky presné údaje ako jednu verziu pravdy. Mala by poskytovať zrozumiteľné a navigovateľné údaje s rýchlym výkonom a vynútiť povolenia, aby k správnym údajom mohli niekedy pristupovať len správni ľudia. Snažiť sa navrhnúť svoj sklad údajov pre odolnosť a umožniť mu prispôsobiť sa zmenám s rozvojom vašich požiadaviek.
Úspešná implementácia skladu údajov závisí od dobrého plánovania. Informácie o strategických a taktických aspektoch a akciách, ktoré vedú k úspešnému prijatiu služby Fabric a vášho skladu údajov, nájdete v pláne prijatia služby Microsoft Fabric.
Prepitné
Odporúčame, aby ste vytvorili svoj podnikový sklad údajov opakovane. Začnite najskôr s najdôležitejšími oblasťami a potom časom podľa priority a zdrojov rozšírte sklad údajov o ďalšie oblasti, v ktorých sa nachádzajú.
Súvisiaci obsah
V nasledujúcom článku v tejto sérii získate informácie o sprievodnom materiáli a najvhodnejších postupoch pri navrhovaní pre tabuľky dimenzií.