Vylepšení aktualizace modelu a funkce

Dokončeno

Než budete dále zkoumat, jak vylepšit aktualizaci a funkci modelu, měli byste vědět, jak Power BI ukládá data. Podobně jako hypersou soubory Tableau ukládá Power BI data jako sloupcovou databázi.

Snímek obrazovky s řádkovou databází a sloupcovou databází Power BI

Poznámka

Sloupcová databáze ukládá každý sloupec jako vlastní soubor místo ukládání dat po řádcích (databáze založené na řádcích).

Ukládání dat jako sloupcové databáze je ideální pro dlouhé tabulky, kde je načítání řádků pro sloupec mnohem rychlejší. Data v jednom sloupci jsou vždy stejného typu, jako je řetězec nebo celé číslo. Vzhledem k tomu, že jsou všechny položky typu seskupené dohromady, je možné je efektivněji komprimovat, což vede k lepšímu výkonu při analýze velkých objemů dat.

Poznámka

Power BI se také pokusí tyto sloupce optimálně uložit tak, že je seskupí dohromady, například položky. Po seskupení sloupců se vytvoří slovník namapovaných jedinečných hodnot.

Vylepšení modelu

Pokud chcete zlepšit výkon modelu, zvažte následující faktory:

  • Kardinalita

  • Změna blanek na hodnoty

  • Odebrání redundantních a nepotřebných polí

  • Hvězdicová schémata

  • Automatické datum a čas

  • Celá čísla versus řetězce

Odebrání polí s vysokou kardinalitou

Kardinalita odkazuje na počet jedinečných hodnot obsažených ve sloupci nebo poli databáze. Hodnoty vysoké kardinality jsou obvykle identifikační čísla, e-mailové adresy nebo uživatelská jména.

Snímek obrazovky s příkladem sloupce tabulky dat s vysokou kardinalitou je tabulka USERS se sloupcem s názvem USER_ID.

Prvním aspektem by mělo být odebrání polí s vysokou kardinalitou. Pokud máte jedinečné ID pro každý řádek, odeberte toto pole. Čím vyšší kardinalita, tím nákladnější je uložení; jedinečných hodnot rovnajících se vysokým nákladům.

Běžným problémem je pole Datum a čas , kde kombinace data a času zvyšuje kardinalitu pole. Pokud chcete tento problém vyřešit, zvažte rozdělení pole do samostatných polí data a času.

Změna bLANk na hodnoty

Při psaní měr se můžete setkat se scénáři, kdy se nedá vrátit smysluplná hodnota. V těchto případech můžete být v pokušení vrátit hodnotu, například nula, místo toho. V zájmu výkonu byste měli toto pokušení znovu zvážit.

Během většiny výpočtů se hodnoty BLANK ignorují, ale nulové hodnoty ne. Převod hodnot BLANK na nulu vynutí výpočet vyhodnotit více řádků a vrátit velkou sadu výsledků dotazu, což často vede k pomalému vykreslování sestavy. Jinými slovy, převod hodnot BLANK na nulu zvýší náklady na výpočet.

Odebrání nadbytečných a nepotřebných polí

Odebrání redundantních a nepotřebných polí je důležité, protože se pokoušíte omezit šířku tabulek, což zvyšuje výkon aktualizace. Obvykle můžete odebrat redundantní pole, protože jste vytvořili star schéma a nepotřebujete, aby se stejné pole zobrazilo vícekrát. Pomocí nepotřebných polí určíte, která pole se použijí při importu. Nejlepší je začít v malém a rozrůstat se místo toho, abyste všechna data shodili dohromady v jedné masivní datové sadě.

Vytváření vysoce výkonných modelů pomocí star schémat

Návrh hvězdicového schématu je relevantní pro vývoj vysoce výkonných a použitelných modelů Power BI. Každá sestava Power BI vytvoří dotaz, který se odešle do modelu Power BI. Tyto dotazy slouží k filtrování, seskupování a sumarizace dat modelu. Dobře navržený model poskytuje tabulky pro filtrování, seskupování a sumarizaci.

Poznámka

Schéma star je typ schématu modelování dat s jednou tabulkou faktů uprostřed a několika přidruženými tabulkami dimenzí kolem tabulky faktů. Hvězdicová schémata jsou optimalizovaná pro dotazování velkých datových sad.

Tento dobře navržený model dobře funguje s požadavky star schématu:

  • Tabulky dimenzí podporují filtrování a seskupování.

  • Tabulka faktů podporuje shrnutí.

Schéma star zabraňuje výpočtu a zpracování sčítání spojení, která byste získali ze schématu sněhové vločky, ale stále poskytuje výhodu zhuštěných dat, která plochá tabulka nemůže poskytnout.

Vypnutí automatického data a času

Automatické datum a čas je možnost načítání dat v Power BI Desktop, která podporuje užitečné generování sestav časového měřítka na základě sloupců kalendářních dat načtených do modelu. Když je tato možnost zapnutá, Power BI Desktop vytvoří skryté tabulky data a času za každým polem data v datové sadě.

Se všemi těmito skrytými tabulkami data a času a poli kalendářních dat pohromadě se velikost modelu výrazně zvětší. Zmenšení velikosti modelu optimalizuje výkon, zejména u větších datových sad. V optimálním případě byste vytvořili jednu tabulku kalendářních dat a propojili ji. Můžete také přidat další dimenze kalendářních dat s vlastní tabulkou kalendářních dat, která může poskytovat více funkcí než skrytá tabulka automatického data a času.

Pokud chcete v Power BI vypnout možnost Automatické datum a čas , použijte následující postup.

  1. Vyberte Možnosti a nastavení souboru>.

  2. Vyberte Možnosti.

    Snímek obrazovky s možnostmi a nastaveními použitými k vypnutí automatického data a času

  3. Vyberte možnost Načtení dat v části Globální nebo Aktuální soubor .

  4. Zrušte zaškrtnutí políčka Automatické datum a čas pro nové soubory v části Časové měřítko .

Použití celých čísel u řetězců

Celá čísla jsou lepší než řetězce ze dvou důvodů:

  • Porovnání celého čísla s jiným číslem je rychlejší než porovnávání řetězce s řetězcem.

  • Řetězce musí být uloženy tak, abyste nejprve našli jejich index a pak našli hodnotu.

Řetězce jsou odkazovány dvakrát, zatímco celá čísla jsou odkazována pouze jednou.

Další informace najdete v článku Vysvětlení hvězdicového schématu a jeho důležitosti pro Power BI.