Adatmennyiség-csökkentési technikák importált modellekhez

Cikk
11/10/2023

Ez a cikk importálási modelleket fejlesztő Power BI Desktop-adatmodellezőket céloz meg. Különböző technikákat ír le, amelyekkel csökkenthetők az importálási modellekbe betöltött adatok.

Az importálási modelleket tömörített és optimalizált adatok töltik be, majd a VertiPaq tárolómotor tárolja a lemezre. Amikor a forrásadatok betöltve vannak a memóriába, 10-szeres tömörítés látható, ezért ésszerű elvárni, hogy 10 GB forrásadat körülbelül 1 GB méretűre tömöríthető legyen. Továbbá, ha a lemezen marad, további 20%-os csökkentés érhető el.

A VertiPaq tárolómotor által elért hatékonyság ellenére fontos, hogy minimalizálja a modellekbe betöltendő adatokat. Ez különösen igaz a nagy modellekre, vagy olyan modellekre, amelyek várhatóan idővel nagyok lesznek. Négy meggyőző érv:

Előfordulhat, hogy a kapacitás nem támogatja a nagyobb modellméreteket. A megosztott kapacitás akár 1 GB méretű modelleket is üzemeltethet, míg a prémium szintű kapacitások a termékváltozattól függően nagyobb modelleket is üzemeltethetnek. További információkért olvassa el a Nagy szemantikai modellek Power BI Premium-támogatásáról szóló cikket. (A szemantikai modelleket korábban adathalmazoknak nevezték.)
A kisebb modellméretek csökkentik a kapacitáserőforrások, különösen a memória versengését. Ez lehetővé teszi több modell egyidejű betöltését hosszabb ideig, ami alacsonyabb kiürítési arányt eredményez.
A kisebb modellek gyorsabb adatfrissítést eredményeznek, ami alacsonyabb késési jelentéskészítést, magasabb szemantikai modellfrissítési átviteli sebességet és kisebb nyomást eredményez a forrásrendszerre és a kapacitáserőforrásokra.
A kisebb táblasorok száma gyorsabb számítási kiértékeléseket eredményezhet, ami jobb általános lekérdezési teljesítményt eredményezhet.

Fontos

Ez a cikk időnként a Power BI Premiumra vagy annak kapacitás-előfizetésére (P termékváltozatokra) hivatkozik. Vegye figyelembe, hogy a Microsoft jelenleg összevonja a vásárlási lehetőségeket, és visszavonul a Power BI Premium kapacitásonkénti termékváltozataitól. Az új és a meglévő ügyfeleknek érdemes megfontolni a Fabric-kapacitás-előfizetések (F SKU-k) megvásárlását.

További információ: Fontos frissítés a Power BI Premium licenceléséhez és a Power BI Premiumhoz – gyakori kérdések.

Ebben a cikkben nyolc különböző adatcsökkentési technikával foglalkozunk. Ezek a technikák a következők:

Felesleges oszlopok eltávolítása
Felesleges sorok eltávolítása
Csoportosítás és összegzés
Oszlopadattípusok optimalizálása
Egyéni oszlopok beállítása
A Power Query lekérdezésbetöltésének letiltása
Automatikus dátum/idő letiltása
Váltás vegyes módra

Felesleges oszlopok eltávolítása

A modelltábla oszlopai két fő célt szolgálnak:

Jelentéskészítés, a modelladatok megfelelő szűrését, csoportosítását és összegzését szolgáló jelentéstervek elérése
Modellstruktúra a modellkapcsolatok, modellszámítások, biztonsági szerepkörök és akár adatszínformázás támogatásával

Az ilyen célokat nem szolgáló oszlopok valószínűleg eltávolíthatók. Az oszlopok eltávolítását függőleges szűrésnek nevezzük.

Javasoljuk, hogy az ismert jelentéskészítési követelményeknek megfelelően pontosan a megfelelő számú oszlopot tartalmazó modelleket tervezzen. A követelmények idővel változhatnak, de ne feledje, hogy később egyszerűbb oszlopokat hozzáadni, mint később eltávolítani őket. Az oszlopok eltávolítása megszakíthatja a jelentéseket vagy a modell struktúráját.

Felesleges sorok eltávolítása

A modelltáblákat a lehető legkevesebb sorba kell betölteni. Ez úgy érhető el, hogy a szűrt sorhalmazokat két különböző okból tölti be a modelltáblákba: entitások vagy idő szerint történő szűrésre. A sorok eltávolítását vízszintes szűrésnek nevezzük.

Az entitások szerinti szűrés magában foglalja a forrásadatok egy részhalmazának a modellbe való betöltését. Például ahelyett, hogy az összes értékesítési régióra vonatkozóan betöltenél értékesítési tényeket, csak egyetlen régióra kell betölteni a tényeket. Ez a tervezési megközelítés sok kisebb modellt eredményez, és szükségtelenné teszi a sorszintű biztonság meghatározását is (de adott szemantikai modellengedélyeket kell megadnia a Power BI szolgáltatás, és létre kell hoznia az egyes szemantikai modellekhez csatlakozó "duplikált" jelentéseket). A Power Query-paraméterek és a Power BI-sablonfájlok használatával egyszerűbbé teheti a felügyeletet és a közzétételt. További információkért olvassa el a Lekérdezési paraméterek és a Power BI-sablonok részletes ismertetését

Az idő szerinti szűrés magában foglalja a tény típusú táblákba betöltött adatelőzmények mennyiségének korlátozását (és a modell dátumtábláiba betöltött dátumsorok korlátozását). Javasoljuk, hogy csak akkor töltse be automatikusan az összes rendelkezésre álló előzményt, ha az ismert jelentéskészítési követelmény. Érdemes tisztában lenni azzal, hogy az időalapú Power Query-szűrők paraméterezhetők, és akár relatív időszakok használatára is beállíthatók (például a frissítési dátumhoz képest, például az elmúlt öt évhez képest). Ne feledje továbbá, hogy az időszűrők visszamenőleges módosítása nem fogja megszakítani a jelentéseket; csak kevesebb (vagy több) adatelőzményt eredményez a jelentésekben.

Csoportosítás és összegzés

A modell méretének csökkentésére talán a leghatékonyabb módszer az előre összegzett adatok betöltése. Ez a technika a tény típusú táblák szemcseméretének emelésére használható. Van azonban egy külön kompromisszum, ami a részletek elvesztését eredményezi.

Egy forrás értékesítési ténytáblája például rendeléssoronként egy sort tárol. Jelentős adatcsökkentés érhető el az összes értékesítési mérőszám összegzésével, a dátum, az ügyfél és a termék szerinti csoportosítással. Vegye figyelembe, hogy a hónap szintjén dátum szerinti csoportosítással még jelentősebb adatcsökkentés érhető el. Lehetséges 99%-os modellméret-csökkenést érhet el, de a napi szintű jelentéskészítés – vagy az egyéni megrendelési szint – már nem lehetséges. A tény típusú adatok összegzése mindig kompromisszumokkal jár. A kompromisszumot egy vegyes modell kialakítása enyhítheti, és ezt a lehetőséget a Vegyes módra váltás technikában ismertetjük.

Oszlopadattípusok optimalizálása

A VertiPaq tárolómotor minden oszlophoz külön adatstruktúrát használ. Ezek az adatstruktúrák a legnagyobb optimalizálást érik el a numerikus oszlopadatokhoz, amelyek értékkódolást használnak. A szöveg és más nem numerikus adatok azonban kivonatkódolást használnak. A tárolómotornak numerikus azonosítót kell hozzárendelnie az oszlopban található egyedi szöveges értékekhez. Ez a numerikus azonosító, amelyet aztán az adatstruktúrában tárol, és a tárolás és a lekérdezés során kivonatkeresést igényel.

Bizonyos esetekben a forrásszöveg-adatokat numerikus értékekké alakíthatja. Előfordulhat például, hogy egy értékesítési rendelés számát egy szöveges érték (például "SO123456") előtaggal előtaggal adhatja meg. Az előtag eltávolítható, és a rendelésszám egész számmá alakítható. Nagy táblák esetén jelentős adatcsökkenést eredményezhet, különösen akkor, ha az oszlop egyedi vagy magas számosságú értékeket tartalmaz.

Ebben a példában azt javasoljuk, hogy az Alapértelmezett összegzés tulajdonságot állítsa a "Nincs összegzés" értékre. Segít minimalizálni a rendelésszámértékek nem megfelelő összegzését.

Egyéni oszlopok beállítása

A VertiPaq tárolómotor a modell számított oszlopait (DAX-ban definiálva) ugyanúgy tárolja, mint a szokásos Power Query-forrású oszlopokat. Az adatstruktúrák tárolása azonban kissé eltérő, és általában kevésbé hatékony tömörítést eredményez. Emellett az összes Power Query-tábla betöltése után jönnek létre, ami hosszabb adatfrissítési időt eredményezhet. Ezért kevésbé hatékony a táblázatoszlopok számított oszlopként való hozzáadása, mint a Power Query számított oszlopai (az M-ben definiálva).

A beállításnak egyéni oszlopokat kell létrehoznia a Power Queryben. Ha a forrás egy adatbázis, kétféleképpen érhet el nagyobb terhelési hatékonyságot. A számítás definiálható az SQL-utasításban (a szolgáltató natív lekérdezési nyelvének használatával), vagy az adatforrás oszlopaként is.

Egyes esetekben azonban a modell számított oszlopai lehetnek a jobb választás. Ez akkor lehet így, ha a képlet mértékek kiértékelését foglalja magában, vagy olyan konkrét modellezési funkciókat igényel, amelyeket csak a DAX-függvények támogatnak. Egy ilyen példával kapcsolatos információkért tekintse meg a szülő-gyermek hierarchiák megértési függvényeit a DAX-cikkben .

A Power Query lekérdezésbetöltésének letiltása

A más lekérdezésekkel való adatintegrációt támogató Power Query-lekérdezéseket nem szabad betölteni a modellbe. A lekérdezés modellbe való betöltésének elkerülése érdekében ügyeljen arra, hogy ezekben a példányokban tiltsa le a lekérdezésbetöltést.

Képernyőkép a Power Queryről a

Automatikus dátum/idő letiltása

A Power BI Desktop tartalmaz egy Automatikus dátum/idő lehetőséget. Ha engedélyezve van, létrehoz egy rejtett automatikus dátum/idő táblát a dátumoszlopokhoz, hogy támogassa a jelentéskészítőket a szűrők, csoportosítási és részletezési műveletek naptári időszakokhoz való konfigurálásakor. A rejtett táblák valójában számított táblák, amelyek növelik a modell méretét. A beállítással kapcsolatos útmutatásért tekintse meg a Power BI Desktop automatikus dátum-idő útmutatóját.

Váltás vegyes módra

A Power BI Desktopban a vegyes módú kialakítás összetett modellt hoz létre. Lényegében lehetővé teszi az egyes táblák tárolási módjának meghatározását. Ezért minden tábla Rendelkezhet a Storage Mode tulajdonságával Importálás vagy DirectQuery beállítással (a Kettős lehetőség egy másik lehetőség).

Nagyobb méretű, tény típusú táblák esetén a modell mérete hatékonyan csökkenthető a Tárolási mód tulajdonság DirectQuery értékre állításával. Vegye figyelembe, hogy ez a kialakítási megközelítés jól működik a csoporttal együtt, és összefoglalja a korábban bevezetett technikát. Az összesített értékesítési adatok például nagy teljesítményű "összefoglaló" jelentéskészítéshez használhatók. A részletezési oldal részletes értékesítéseket jeleníthet meg adott (és keskeny) szűrőkörnyezetben, és megjelenítheti az összes kontextuson belüli értékesítési rendelést. Ebben a példában a részletezési oldal egy DirectQuery-táblán alapuló vizualizációkat tartalmaz az értékesítési rendelés adatainak lekéréséhez.

Az összetett modellekhez azonban számos biztonsági és teljesítménybeli hatás kapcsolódik. További információkért olvassa el az Összetett modellek használata a Power BI Desktopban című cikket.

A Power BI Import modelltervével kapcsolatos további információkért tekintse meg az alábbi cikkeket:

Adatmennyiség-csökkentési technikák importált modellekhez

Felesleges oszlopok eltávolítása

Felesleges sorok eltávolítása

Csoportosítás és összegzés

Oszlopadattípusok optimalizálása

Egyéni oszlopok beállítása

A Power Query lekérdezésbetöltésének letiltása

Automatikus dátum/idő letiltása

Váltás vegyes módra

Visszajelzés

Visszajelzés

További források

Adatmennyiség-csökkentési technikák importált modellekhez

Felesleges oszlopok eltávolítása

Felesleges sorok eltávolítása

Csoportosítás és összegzés

Oszlopadattípusok optimalizálása

Egyéni oszlopok beállítása

A Power Query lekérdezésbetöltésének letiltása

Automatikus dátum/idő letiltása

Váltás vegyes módra

Kapcsolódó tartalom

Visszajelzés

Visszajelzés

További források