Úvod

Dokončené

Vytvorenie skvelého sémantického modelu je jednou z najdôležitejších úloh, ktoré môže vykonávať dátový analytik v službe Microsoft Power BI. Ak túto úlohu dobre zvládnete, pomôžete ľuďom lepšie pochopiť vaše údaje, čo obom stranám uľahčí vytváranie hodnotných zostáv v službe Power BI.

Stránky v tomto module sú iba inštruktážne, nie sú k dispozícii žiadne údajové súbory. V cvičeniach máte možnosť pracovať so skutočnými údajmi.

Dobrý sémantický model ponúka nasledujúce výhody:

  • Údaje sa dajú rýchlejšie preskúmať.

  • Agregácie sa vytvárajú jednoduchšie.

  • Zostavy sú presnejšie.

  • Písanie zostáv trvá kratšie.

  • Zostavy sa budú v budúcnosti udržiavať jednoduchšie.

Poskytnutie súboru pravidiel o tom, čo vytvára dobrý sémantický model, je ťažké, pretože všetky údaje sú odlišné a ich použitie sa líši. Vo všeobecnosti je menší sémantický model lepší, pretože funguje rýchlejšie a bude jednoduchší na používanie. Definovanie toho, čo je menší sémantický model, je však rovnako problematické, pretože ide o heuristický a subjektívny koncept.

Menší sémantický model sa zvyčajne skladá z menšieho počtu tabuliek a menšieho počtu stĺpcov v každej tabuľke, ktorú používateľ môže vidieť. Ak importujete všetky potrebné tabuľky z databázy Predaj, ale celkový počet tabuliek je 30, pre používateľa jeho použitie nebude intuitívne. Zbalením týchto tabuliek do piatich sa sémantický model zmení na intuitívnejší pre používateľa, zatiaľ čo ak používateľ otvorí tabuľku so 100 stĺpcami, môže sa mu to znásobeť. Odstránenie nepotrepných stĺpcov s cieľom poskytnúť číslo, s ktorým sa lepšie naslúcha, zvyšuje pravdepodobnosť, že používateľ prečíta všetky názvy stĺpcov. Stručne povedané, pri navrhovaní sémantických modelov by ste sa mali snažiť o to, aby boli čo najvhodnejšie.

Nasledujúci obrázok predstavuje príklad sémantického modelu. Polia obsahujú tabuľky údajov, pričom každá položka riadka v poli predstavuje stĺpec. Riadky, ktoré spájajú jednotlivé polia, predstavujú vzťahy medzi tabuľkami. Tieto vzťahy môžu byť zložité, dokonca aj v takomto zjednodušenom modeli. Sémantický model môže ľahko dezorganizovať a celkový počet tabuliek v modeli sa môže postupne zvyšovať. Udržiavanie jednoduchého, komplexného a presného sémantického modelu si vyžaduje neustále úsilie.

Snímka obrazovky s ukážkou sémantického modelu s mnohými vzťahmi.

Vzťahy medzi tabuľkami sú definované prostredníctvom primárnych a cudzích kľúčov. Primárne kľúče sú stĺpce, ktoré identifikujú každý jedinečný údajový riadok, ktorý nie je null. Ak máte napríklad tabuľku Zákazníci, môžete použiť index, ktorý identifikuje každého jedinečného zákazníka. Prvý riadok má ID 1, druhý riadok ID 2 a tak ďalej. Každému riadku je priradená jedinečná hodnota, na ktorú môže odkazovať táto jednoduchá hodnota: primárny kľúč. Tento proces má význam najmä vtedy, keď odkazujete na riadky v inej tabuľke, čo je práve úlohou cudzích kľúčov. Vzťahy medzi tabuľkami sa vytvárajú vtedy, keď máte medzi rôznymi tabuľkami spoločné primárne a cudzie kľúče.

Power BI umožňuje vytvárať vzťahy medzi tabuľkami s rôznymi zdrojmi údajov, čo je výkonná funkcia, pomocou ktorej je možné načítať údaje z jednej tabuľky v Microsoft Exceli a z druhej v relačnej databáze. Potom by ste vytvorili vzťah medzi týmito dvoma tabuľkami a narábali s nimi ako so zjednoteným sémantickým modelom.

Teraz, keď ste sa dozvedeli niečo o vzťahoch, ktoré tvoria schému údajov, môžete preskúmať konkrétny typ návrhu schémy – hviezdicovú schému, ktorá je optimalizovaná s cieľom dosiahnuť vysoký výkon a použiteľnosť.

Hviezdicové schémy

Môžete navrhnúť hviezdicovú schému, ktorá údaje zjednoduší. Nie je to jediný spôsob zjednodušenia údajov, je to však populárna metóda, ktorú by mal poznať každý analytik údajov v službe Power BI. V hviezdicovej schéme je každá tabuľka v rámci vášho sémantického modelu definovaná ako dimenzia alebo tabuľka faktov, ako je to znázornené v nasledujúcom vizuáli.

Ilustrácia hviezdicovej schémy s tabuľkou faktov v strede a tabuľkami dimenzií na každom z piatich bodov.

Tabuľky faktov obsahujú hodnoty pozorovaných údajov alebo udalostí: predajné objednávky, počty produktov, ceny, časy a dátumy transakcií a množstvá. Tabuľky faktov môžu obsahovať niekoľko opakovaných hodnôt. Jeden produkt sa napríklad môže zobraziť viackrát vo viacerých riadkoch, pre rôznych zákazníkov a v rôznych dátumoch. Tieto hodnoty je možné agregovať a vytvoriť z nich vizuály. Vizuálom celkového počtu predajných objednávok je napríklad agregácia všetkých predajných objednávok v tabuľke faktov. Pri tabuľkách faktov je bežné vidieť stĺpce, ktoré sú vyplnené číslami a dátumami. Týmito číslami môžu byť merné jednotky, ako napríklad suma predaja, alebo to môžu byť kľúče, ako napríklad ID zákazníka. Dátumy predstavujú zaznamenaný čas, napríklad dátum objednávky alebo dátum odoslania.

Tabuľky dimenzií obsahujú podrobnosti o údajoch v tabuľkách faktov: produkty, umiestnenia, zamestnanci a typy objednávok. Tieto tabuľky sú spojené s tabuľkou faktov prostredníctvom kľúčových stĺpcov. Tabuľky dimenzií sa používajú na filtrovanie a zoskupovanie údajov v tabuľkách faktov. Tabuľky faktov na druhej strane obsahujú merateľné údaje, ako napríklad predaj a výnosy, a každý riadok predstavuje jedinečnú kombináciu hodnôt z tabuliek dimenzií. Vo vizuáli celkového počtu predajných objednávok môžete údaje zoskupiť tak, že sa vám bude zobrazovať celkový počet predajných objednávok podľa produktov, pričom údaje o produktoch budú v tabuľke dimenzií.

Tabuľky faktov sú oveľa väčšie ako tabuľky dimenzií, pretože v tabuľkách faktov sa vyskytuje množstvo udalostí, ako napríklad individuálny predaj. Tabuľky dimenzií sú zvyčajne menšie, pretože sú obmedzené počtom položiek, ktoré môžete filtrovať a zoskupovať. Rok má napríklad len taký počet mesiacov a Spojené štáty sa skladajú len z určitého počtu štátov.

Vzhľadom na tieto informácie o tabuľkách faktov a tabuľkách dimenzií vás možno zaujíma, ako takýto vizuál vytvoríte v službe Power BI.

Relevantné údaje sa nachádzajú v dvoch tabuľkách, Zamestnanec a Predaj, ako je to znázornené v nasledujúcom sémantickom modeli. Vzhľadom na to, že tabuľka Predaj obsahuje hodnoty predajných objednávok, ktoré je možné agregovať, považuje sa za tabuľku faktov. Tabuľka Zamestnanec obsahuje meno konkrétneho zamestnanca, na základe ktorého sa filtrujú predajné objednávky, takže by išlo o tabuľku dimenzií. Spoločný stĺpec medzi dvomi tabuľkami, ktorý je primárnym kľúčom v tabuľke zamestnanca, je EmployeeID (ID zamestnanca), a s jeho použitím môžete vytvoriť vzťah medzi dvoma tabuľkami.

Snímka obrazovky sémantických vzťahov modelov.

Pri vytváraní tohto vzťahu môžete vytvoriť vizuál podľa požiadaviek, ako je to znázornené na nasledujúcom obrázku. Ak by ste nevytvorili tento vzťah popri zachovaní spoločných čŕt oboch tabuliek, bola by pre vás tvorba vizuálu náročnejšia.

Snímka obrazovky s výsledkom v príklade hviezdicovej schémy.

Hviezdicové schémy a základný sémantický model sú základom organizovaných zostáv; čím viac času strávite vytváraním týchto pripojení a návrhu, tým jednoduchšie bude vytváranie a údržba zostáv.