Techniky znižovania objemu údajov na modelovanie importu.
Tento článok sa zameriava na modelárov údajov aplikácie Power BI Desktop, ktorí vyvíjajú importované modely. Opisuje rôzne techniky, ktoré pomáhajú znížiť načítanie údajov do importovaných modelov.
Modely importu sa načítavajú s údajmi, ktoré sa komprimujú a optimalizujú a následne sa uložia na disk pomocou nástroja úložiska VertiPaq. Pri načítavaní zdrojových údajov do pamäte je možná 10-násobná kompresia, preto je rozumné očakávať, že 10 GB zdrojových údajov sa môže skomprimovať na veľkosť približne 1 GB. Okrem toho je možné dosiahnuť ďalších 20 % zníženia na disku.
Napriek efektivite, ktorú dosiahol nástroj úložiska VertiPaq, je dôležité, aby ste sa snažili minimalizovať údaje, ktoré sa majú načítať do vašich modelov. Platí to najmä pre veľké modely alebo modely, od ktorými očakávate, že sa budú zväčšovať a časom sa stanú veľkými. Medzi štyri presvedčivé dôvody patrí:
- Veľkosť väčších modelov nemusí byť podporovaná vašou kapacitou. Zdieľaná kapacita môže hostiť modely s veľkosťou až 1 GB, zatiaľ čo kapacity Premium môžu hosťovať väčšie modely v závislosti od jednotky SKU. Ďalšie informácie nájdete v článku Podpora veľkých sémantických modelov v službe Power BI Premium.
- Menšie veľkosti modelov znižujú konflikt v zdrojoch kapacity, najmä pamäti. To umožňuje súčasné načítanie viacerých modelov za dlhší čas, vďaka čomu sú nižšie miery vyradenia.
- Menšie modely dosahujú rýchlejšie obnovenie údajov, čo má za následok nižšie časové oneskorenie vytvárania zostáv, vyššiu priepustnosť obnovovania sémantického modelu a menší tlak na zdrojový systém a zdroje kapacity.
- Menšie počty riadkov tabuľky môžu viesť k rýchlejšiemu vyhodnocovaniu výsledkov výpočtu, čo môže priniesť lepší celkový výkon dotazu.
Dôležité
V čase, keď sa tento článok týka služby Power BI Premium alebo jej predplatných kapacity (skladové jednotky SKU P). Spoločnosť Microsoft v súčasnosti konsoliduje možnosti nákupu a vyradí skladové jednotky SKU služby Power BI Premium na kapacitu. Noví a existujúci zákazníci by namiesto toho mali zvážiť zakúpenie predplatného kapacity služby Fabric (skladové jednotky F SKU).
Ďalšie informácie nájdete v téme Dôležitá aktualizácia pre licencie Power BI Premium a Power BI Premium: najčastejšie otázky.
V tomto článku je uvedených osem rôznych techník znižovania údajov. Tieto techniky zahŕňajú:
- Odstránenie nepotrebných stĺpcov,
- Odstránenie nepotrebných riadkov
- Spôsob zoskupenia a zhrnutie
- Optimalizácia typov údajov v stĺpcoch
- Preferencie pre vlastné stĺpce
- Zakázanie načítania dotazu Power Query
- Vypnutie automatického dátumu a času
- Prepnutie do kombinovaného režimu
Odstránenie nepotrebných stĺpcov,
Stĺpce tabuľky modelu majú dva hlavné účely:
- Vytváranie zostáv, ktoré zabezpečia vhodné filtrovanie, zoskupenie a sumarizáciu údajov modelu
- Štruktúra modelu, prostredníctvom podporovania modelových vzťahov, modelových výpočtov, rolí zabezpečenia a dokonca aj formátovania farieb údajov
Stĺpce, ktoré neslúžia na tieto účely, je pravdepodobne možné odstrániť. Odstránenie stĺpcov sa označuje ako zvislé filtrovanie.
Odporúčame vám navrhnúť modely s tým správnym počtom stĺpcov na základe známych požiadaviek na vykazovanie. Vaše požiadavky sa môžu v priebehu času meniť, ale majte na pamäti, že je jednoduchšie pridať stĺpce neskôr, ako ich potom odstrániť. Odstránením stĺpcov sa môžu prerušiť zostavy alebo štruktúra modelu.
Odstránenie nepotrebných riadkov
Tabuľky modelu by sa mali načítať s čo najmenším počtom riadkov. To možno dosiahnuť načítaním filtrovanej množiny riadkov do tabuliek modelov z dvoch rôznych dôvodov: filtrovať podľa entity alebo podľa času. Odstránenie riadkov sa označuje ako vodorovné filtrovanie.
Filtrovanie podľa entity zahŕňa načítanie podmnožiny zdrojových údajov do modelu. Napríklad namiesto načítania faktov o predaji pre všetky oblasti predaja sa načítajú len fakty pre jednu oblasť. Tento prístup k návrhu bude mať za následok mnoho menších modelov a môže tiež eliminovať potrebu definovať zabezpečenie na úrovni riadkov (ale bude vyžadovať udelenie konkrétnych povolení sémantického modelu v služba Power BI a vytváranie "duplicitných" zostáv, ktoré sa pripájajú ku každému sémantickému modelu). Na zjednodušenie spravovania a publikovania môžete využiť parametre Power Query a súbory šablón služby Power BI. Ďalšie informácie nájdete v zázname blogu Podrobné informácie o parametroch dotazu a šablónach služby Power BI.
Filtrovanie podľa času zahŕňa obmedzenie množstva histórie údajov načítaných do tabuliek faktového typu (a obmedzenie riadkov dátumov načítaných do tabuliek dátumov modelu). Odporúčame, aby ste automaticky nenačítali celú dostupnú históriu, pokiaľ nejde o známu požiadavku na vytváranie zostáv. Je užitočné vedieť, že filtre Power Query založené na čase môžu byť parametrizované a dokonca nastavené na používanie relatívnych časových období (v porovnaní s dátumom obnovenia, napríklad za posledných päť rokov). Majte tiež na pamäti, že retrospektívne zmeny časných filtrov neprerušia zostavy. To bude mať za následok len menej (alebo viac) histórie údajov dostupných v zostavách.
Spôsob zoskupenia a zhrnutie
Asi najúčinnejšou technikou na zmenšenie veľkosti modelu je načítanie vopred zhrnutých údajov. Táto technika sa dá použiť na zvýšenie množstva tabuliek faktového typu. Je tu však zreteľné trade-off, čo má za následok stratu podrobností.
Napríklad tabuľka zdrojových faktov predaja obsahuje jeden riadok na riadok objednávky. Významné zníženie údajov sa dá dosiahnuť zhrnutím všetkých metrík predaja a zoskupovaním podľa dátumu, zákazníka a produktu. Zoberme si teda, že by bolo možné dosiahnuť ešte výraznejšie zníženie údajov zoskupením podľa dátumu na úrovni mesiaca. Mohlo by sa tým dosiahnuť zmenšenie modelu o 99 %, ale vytváranie zostáv na dennej úrovni alebo na úrovni individuálnych objednávok už nie je možné. Pri rozhodovaní o zhrnutí údajov faktového typu sa vždy prislúcha kompromisom. Tento kompromis by mohol byť zmiernený návrhom kombinovaného modelu a táto možnosť je popísaná v technike Prepnutie do kombinovaného režimu .
Optimalizácia typov údajov v stĺpcoch
Nástroj úložiska VertiPaq používa pre každý stĺpec samostatné štruktúry údajov. Podľa návrhu tieto štruktúry údajov dosahujú najvyššie optimalizácie pre číselné stĺpce údajov, ktoré používajú kódovanie hodnoty. Text a iné nečíselné údaje však používajú kódovanie hash. To vyžaduje, aby nástroj na ukladanie priradol numerický identifikátor ku každej jedinečnej textovej hodnote obsiahnutej v stĺpci. Ide o numerický identifikátor, ktorý sa potom uloží v štruktúre údajov, pričom sa počas ukladania a dotazovania vyžaduje vyhľadávanie hash.
V niektorých konkrétnych prípadoch môžete skonvertovať zdrojové textové údaje na číselné hodnoty. Napríklad číslo predajnej objednávky môže byť konzistentne dané textnou hodnotou (napríklad "SO123456"). Predponu možno odstrániť a hodnota čísla poradia sa konvertuje na celé číslo. V prípade veľkých tabuliek môže dôjsť k významnému zníženiu objemu údajov, najmä ak stĺpec obsahuje jedinečné alebo vysoké hodnoty kardinality.
V tomto príklade odporúčame, aby ste nastavili vlastnosť stĺpca Predvolené nastavenie súhrnu na hodnotu "Nezhrnúť". Pomáha to minimalizovať nevhodnú sumarizáciu číselných hodnôt objednávok.
Preferencie pre vlastné stĺpce
Nástroj úložiska VertiPaq ukladá model vypočítaných stĺpcov (definovaných v jazyku DAX) rovnako ako bežné zdrojové stĺpce Power Query. Štruktúry údajov sa však ukladajú mierne odlišne a zvyčajne dosahujú menej účinnú kompresiu. Tiež sú vytvorené po načítaní všetkých tabuliek Power Query, čo môže viesť k predĺženiu časov obnovenia údajov. Preto je menej efektívne pridať stĺpce tabuľky ako vypočítané stĺpce ako vypočítané stĺpce Power Query (definované v M).
Preferencia by mala byť vytváranie vlastných stĺpcov v doplnku Power Query. Keď je zdrojom databáza, môžete dosiahnuť vyššiu efektivitu načítania dvomi spôsobmi. Výpočet možno definovať v príkaze SQL (pomocou jazyka natívneho dotazu poskytovateľa) alebo ho možno vymedziť ako stĺpec v zdroji údajov.
V niektorých inštanciách však možno lepšie vybrať model vypočítaných stĺpcov. Môže to byť prípad, keď vzorec zahŕňa vyhodnocovanie mierok, alebo si vyžaduje konkrétnu funkciu modelovania podporovanú len vo funkciách DAX. Informácie o jednom z takýchto príkladov nájdete v článku Pochopenie funkcií pre hierarchiu nadriadených a podriadených prvkov v jazyku DAX .
Zakázanie načítania dotazu Power Query
Dotazy Power Query, ktoré sú určené na podporu integrácie údajov s inými dotazmi, by sa nemali načítať do modelu. Ak sa chcete vyhnúť načítavaniu dotazu do modelu, postarajte sa o to, aby ste v týchto inštanciách zakázali načítanie dotazov.
Vypnutie automatického dátumu a času
Power BI Desktop obsahuje možnosť s názvom Automatický dátum a čas. Ak je povolená, vytvorí pre stĺpce dátumov skrytú tabuľku Automatický dátum a čas na podporu autorov zostáv pri konfigurácii filtrov, zoskupovaní a akcií prechodu na detaily v kalendárnych časových obdobiach. Skryté tabuľky sú v skutočnosti vypočítané tabuľky, ktoré zvýšia veľkosť modelu. Pokyny týkajúce sa používania tejto možnosti nájdete v článku Pomoc s automatickým dátumom a časom v aplikácii Power BI Desktop .
Prepnutie do kombinovaného režimu
Návrh kombinovaného režimu vytvára v aplikácii Power BI Desktop zložený model. V podstate vám to umožní určiť režim úložiska pre každú tabuľku. Preto môže mať každá tabuľka vlastnosť Režim úložiska nastavenú ako Import alebo DirectQuery (Dual je ďalšou možnosťou).
Efektívnym spôsobom zníženia veľkosti modelu je nastavenie Režimu ukladacieho priestoru pre väčšie tabuľky obsahujúce fakty na DirectQuery. Zoberme si, že tento návrhový prístup by mohol dobre fungovať v spojení s predchádzajúcou technikou Spôsob zoskupenia a zhrnutie . Súhrnné údaje o predaji by sa napríklad mohli použiť na dosiahnutie vysokého výkonu súhrnu vytvárania zostáv. Prechodom na stranu môžete zobraziť podrobný predaj pre konkrétny (a úzky) kontext filtra, ktorý zobrazuje všetky predajné objednávky. V tomto príklade bude strana s podrobnou analýzou obsahovať vizuály založené na tabuľke DirectQuery, aby sa načítali údaje o predajnej objednávke.
Existujú však mnohé vplyvy zabezpečenia a výkonu súvisiace so zloženými modelmi. Ďalšie informácie nájdete v článku Používanie zložených modelov v aplikácii Power BI Desktop .
Súvisiaci obsah
Ďalšie informácie o návrhu modelu importu služby Power BI nájdete v nasledujúcich článkoch: