Úvod

5 min

Vytvoření skvělého sémantického modelu je jedním z nejdůležitějších úkolů, které může datový analytik v Microsoft Power BI provádět. Když tento úkol provedete dobře, uživatelé snadněji porozumí vašim datům. Díky tomu bude vytváření cenných sestav Power BI snazší pro ně i pro vás.

Stránky v tomto modulu jsou pouze instruktážní, nejsou k dispozici žádné datové soubory. V testovacích prostředích máte možnost pracovat se skutečnými daty.

Dobrý sémantický model nabízí následující výhody:

Zkoumání dat je rychlejší.
Jednodušeji se vytváří agregace.
Sestavy jsou přesnější.
Zapisování sestav trvá kratší dobu.
Sestavy se v budoucnu jednodušeji udržují.

Poskytnutí nastavených pravidel pro to, co dělá dobrý sémantický model, je obtížné, protože všechna data jsou odlišná a jejich použití se liší. Obecně platí, že menší sémantický model je lepší, protože funguje rychleji a bude jednodušší ho používat. Definování toho, co menší sémantický model obnáší, je ale stejně problematické, protože se jedná o heuristický a subjektivní koncept.

Menší sémantický model se obvykle skládá z menšího počtu tabulek a sloupců v každé tabulce, které uživatel vidí. Pokud naimportujete všechny potřebné tabulky z databáze prodejů, ale celkový počet tabulek bude 30, pro uživatele to nebude moc intuitivní. Když tyto tabulky sbalíte do pěti tabulek, bude sémantický model pro uživatele intuitivnější, zatímco když uživatel otevře tabulku a najde 100 sloupců, může ho zahltit. Odebrání nepotřebných sloupců za účelem zajištění lépe spravovatelných čísel zvyšuje pravděpodobnost, že uživatel přečte všechny názvy sloupců. Abychom to shrnuli, měli byste se při návrhu sémantických modelů zaměřit na jednoduchost.

Na následujícím obrázku je příklad sémantického modelu. Pole obsahují datové tabulky, kde každá položka na řádcích představuje jeden sloupec. Čáry spojující jednotlivá pole představují relace mezi tabulkami. Tyto relace můžou být složité, a to i v takovémto zjednodušujícím modelu. Sémantický model může být snadno neorganizovaný a celkový počet tabulek v modelu se může postupně zvyšovat. Udržování sémantického modelu jednoduchého, komplexního a přesného vyžaduje neustálé úsilí.

Relace jsou definovány mezi tabulkami prostřednictvím primárních a cizích klíčů. Primární klíče jsou sloupce, které identifikují všechny jedinečné řádky dat, které nemají hodnotu null. Pokud máte například tabulku Customers, můžete mít index, který identifikuje každého jedinečného zákazníka. První řádek má ID 1, druhý řádek ID 2 atd. Každému řádku je přiřazena jedinečná hodnota, na kterou se může pomocí této jednoduché hodnoty odkazovat: primární klíč. Tento proces se stává důležitým při odkazování na řádky v jiné tabulce – to zajišťují cizí klíče. Relace mezi tabulkami se vytvoří, když máte mezi různými tabulkami společné primární a cizí klíče.

Power BI umožňuje vytvářet relace z tabulek s různými zdroji dat, což je skvělá funkce, která umožňuje načítat jednu tabulku z Microsoft Excelu a jinou z relační databáze. Pak vytvoříte relaci mezi těmito dvěma tabulkami a budete s nimi pracovat jako s jednotným sémantickým modelem.

Teď, když jste se seznámili s relacemi, které tvoří datové schéma, můžete prozkoumat konkrétní typ návrhu schématu, star schéma, které je optimalizované pro vysoký výkon a použitelnost.

Hvězdicová schémata

Můžete navrhnout hvězdicové schéma, které zjednoduší vaše data. Není to jediný způsob, jak můžete zjednodušit svá data, ale je to oblíbená metoda. Proto by mu měl každý datový analytik Power BI rozumět. V star schématu je každá tabulka v rámci sémantického modelu definována jako dimenze nebo tabulka faktů, jak je znázorněno v následujícím vizuálu.

Tabulky faktů obsahují hodnoty odpozorovaných dat nebo dat událostí: prodejní objednávky, počty produktů, ceny, kalendářní data a časy transakcí a množství. Tabulky faktů můžou obsahovat několik opakovaných hodnot. Jeden produkt může být například uveden víckrát na více řádcích, a to pro různé zákazníky s různými kalendářními daty. Tyto hodnoty je možné agregovat pro vytváření vizuálů. Například vizuál celkových prodejních objednávek je agregací všech prodejních objednávek v tabulce faktů. V tabulkách faktů běžně najdete sloupce s čísly a kalendářními daty. Tato čísla můžou být měrné jednotky, jako je například částka prodeje, nebo klíče, jako je například ID zákazníka. Kalendářní data představují zaznamenávané časové hodnoty, například datum objednávky nebo datum expedice.

Tabulky dimenzí obsahují podrobnosti o datech v tabulkách faktů, jako jsou produkty, místa, zaměstnanci a typy objednávek. Tyto tabulky jsou propojeny s tabulkou faktů prostřednictvím sloupců klíčů. Tabulky dimenzí slouží k filtrování a seskupování dat v tabulkách faktů. Tabulky faktů naopak obsahují měřitelná data, jako jsou prodej a výnosy, a každý řádek představuje jedinečnou kombinaci hodnot z tabulek dimenzí. Pro vizuál celkových prodejních objednávek můžete seskupit data tak, aby se zobrazily celkové prodejní objednávky podle produktů, přičemž produkty jsou data v tabulce dimenzí.

Tabulky faktů jsou mnohem větší než tabulky dimenzí, protože v tabulkách faktů dochází k mnoha událostem, například k individuálnímu prodeji. Tabulky dimenzí jsou obvykle menší, protože se omezují na počet položek, pomocí kterých lze filtrovat a seskupovat. Například rok obsahuje jenom tolik měsíců a USA se skládají jenom z určitého počtu států.

S ohledem na tyto informace o tabulkách faktů a tabulkách dimenzí můžete přemýšlet, jak můžete vytvořit následující vizuál v Power BI.

Příslušná data se nacházejí ve dvou tabulkách, Employee a Sales, jak je znázorněno v následujícím sémantickém modelu. Protože tabulka Sales obsahuje hodnoty prodejních objednávek, které lze agregovat, je považována za tabulku faktů. Tabulka Employee obsahuje jméno konkrétního zaměstnance, pomocí kterého se filtrují prodejní objednávky, takže by to byla tabulka dimenzí. Společný sloupec v těchto dvou tabulkách, který je primárním klíčem v tabulce Employee, je EmployeeID (ID zaměstnance), takže můžete vytvořit relaci mezi těmito dvěma tabulkami na základě tohoto sloupce.

Když vytvoříte tuto relaci, můžete vizuál vytvořit podle požadavků, jak je znázorněno na následujícím obrázku. Pokud byste tuto relaci nevytvořili a přitom byste zvažovali společné informace mezi těmito dvěma tabulkami, bylo by sestavování vizuálu složitější.

Hvězdicová schémata a základní sémantický model jsou základem uspořádaných sestav; Čím více času strávíte vytvářením a návrhem těchto připojení, tím jednodušší bude vytváření a údržba sestav.

Pokračovat

Úvod

Hvězdicová schémata

Váš názor