Ajánlott eljárások dimenziómodellek adatfolyamok használatával történő létrehozásához

Tip

A Power BI Dataflow Gen1 már örökölt állapotban van, és nem kap új funkcióberuházást. A Fabric-hozzáféréssel rendelkező prémium ügyfelek számára a Dataflow Gen2 az ajánlott elérési út, amely jobb teljesítményt, skálázást, megbízhatóságot, funkcionalitást és beépített AI-t kínál. A Pro/PPU-ügyfelek továbbra is használhatják a Gen1-et, mivel a Gen2 útmutatása ezekhez a forgatókönyvekhez folyamatosan fejlődik. A frissítési útmutatót az Adatfolyam Gen1-ről a Dataflow Gen2-re való frissítéssel kapcsolatban találhatja meg.

A dimenziómodell tervezése az adatfolyamokkal elvégezhető leggyakoribb feladatok egyike. Ez a cikk néhány ajánlott eljárást mutat be a dimenziómodell adatfolyamok használatával történő létrehozásához.

Adatfolyamok átmeneti előkészítése

Az adatintegrációs rendszerek egyik legfontosabb pontja a forrás operációs rendszerből származó olvasások számának csökkentése. A hagyományos adatintegrációs architektúrában ez a csökkentés egy új, átmeneti adatbázisnak nevezett adatbázis létrehozásával történik. Az átmeneti adatbázis célja, hogy az adatforrásból származó adatokat változtatás nélkül, rendszeresen betöltse abba.

A többi adatintegráció ezt követően az előkészítési adatbázist használja a további átalakítás forrásaként, és átalakítja azt a dimenziómodell-struktúrába.

Javasoljuk, hogy ugyanezt a megközelítést kövesse adatfolyamok használatával. Hozzon létre egy adatfolyam-készletet, amely felelős azért, hogy az adatokat változtatás nélkül betöltse a forrásrendszerből (és csak a szükséges táblákhoz). Az eredmény ezután az adatfolyam tárolási struktúrájában lesz tárolva (azure Data Lake Storage vagy Dataverse). Ez a módosítás biztosítja, hogy a forrásrendszerből származó olvasási művelet minimális legyen.

Ezután létrehozhat más adatfolyamokat is, amelyek az adatfolyamok átmeneti folyamatából származtatják az adatokat. Ennek a megközelítésnek az előnyei a következők:

  • A forrásrendszerből származó olvasási műveletek számának csökkentése és a forrásrendszer terhelésének csökkentése.
  • Az adatátjárók terhelésének csökkentése helyszíni adatforrás használata esetén.
  • Az adatok köztes másolata egyeztetés céljából, ha a forrásrendszer adatai megváltoznak.
  • Az átalakítási adatfolyamok forrásfüggetlensé tétele.

Az ábra bemutatja az adatfolyamok előkészítésének folyamatát.

Az átmeneti adatfolyamokat és az átmeneti tárolót bemutató diagram. Az ábra az átmeneti adatfolyam által az adatforrásból elért adatokat, valamint a Cadaversben vagy az Azure Data Lake Storage-ban tárolt táblákat mutatja. Ezután a táblák át lesznek alakítva más adatfolyamokkal együtt, amelyeket a rendszer lekérdezésekként küld ki.

Átalakítási adatfolyamok

Ha elkülöníti az átalakítási adatfolyamokat az átmeneti adatfolyamoktól, az átalakítás független a forrástól. Ez az elkülönítés segít, ha a forrásrendszert egy új rendszerre migrálja. Ebben az esetben mindössze annyit kell tennie, hogy módosítja az átmeneti adatfolyamokat. Az átalakítási adatfolyamok valószínűleg probléma nélkül működnek, mert csak az átmeneti adatfolyamokból származnak.

Ez az elkülönítés abban az esetben is segít, ha a forrásrendszer-kapcsolat lassú. Az átalakítási adatfolyamnak nem kell sokáig várnia, hogy a rekordok lassú kapcsolaton keresztül érkezhessenek a forrásrendszerből. Az átmeneti adatfolyam már elvégezte ezt a részt, és az adatok készen állnak az átalakítási rétegre.

Az előző képhez hasonló diagram, kivéve az átalakításokat, és a rendszer elküldi az adatokat az adattárháznak.

Rétegzett architektúra

A rétegzett architektúra olyan architektúra, amelyben külön rétegekben hajthat végre műveleteket. Az előkészítési és átalakítási adatfolyamok egy többrétegű adatfolyam-architektúra két rétegét is tartalmazhatják. A rétegekben végzett műveletek végrehajtása biztosítja a minimális karbantartást. Ha módosítani szeretne valamit, csak abban a rétegben kell módosítania, ahol az található. A többi rétegnek továbbra is jól kell működnie.

Az alábbi képen egy többrétegű architektúra látható az adatfolyamokhoz, amelyek tábláit ezután a Power BI szemantikai modelljeiben használják.

Többrétegű architektúrát ábrázoló diagram, amelyben az átmeneti adatfolyamok és az átalakítási adatfolyamok külön rétegekben találhatók.

Számított tábla használata a lehető legnagyobb mértékben

Amikor egy adatfolyam eredményét egy másik adatfolyamban használja, a számított tábla fogalmát használja, ami azt jelenti, hogy adatokat kell lekérte egy "már feldolgozott és tárolt" táblából. Ugyanez történhet egy adatfolyamon belül is. Ha egy másik táblából származó táblára hivatkozik, használhatja a számított táblát. Ez a módszer akkor hasznos, ha több táblában kell elvégeznie az átalakításokat, amelyeket gyakori átalakításoknak nevezünk.

A gyakori átalakítások feldolgozásához használt adatforrásból származó számított táblát bemutató ábra.

Az előző képen a számított tábla közvetlenül a forrásból szerzi be az adatokat. Az előkészítési és átalakítási adatfolyamok architektúrájában azonban valószínű, hogy a számított táblák az átmeneti adatfolyamokból származnak.

A gyakori átalakítások feldolgozásához használt adatfolyamokból származó számított táblát ábrázoló diagram.

Csillagséma létrehozása

A legjobb dimenziómodell egy csillagsémamodell, amelynek dimenziói és ténytáblái úgy vannak kialakítva, hogy minimalizálják a modell adatainak lekérdezéséhez szükséges időt. A csillagséma-modell megkönnyíti az adatábrázoló megértését is.

Nem ideális, ha az operatív rendszer azonos elrendezésében lévő adatokat egy BI-rendszerbe viszi. Az adattáblákat újra kell átalakítani. Néhány táblának dimenziótábla formájában kell lennie, amely megőrzi a leíró információkat. Néhány táblának ténytábla formájában kell lennie, hogy megőrizze az összesíthető adatokat. A ténytáblák és dimenziótáblák legjobb elrendezése csillagséma. További információ: A csillagséma és a Power BI fontossága.

Egy csillagséma diagramja, amely egy dimenziótáblák által körülvett ténytáblát ábrázol ötágú csillag formájában.

Egyedi kulcsérték használata dimenziókhoz

Dimenziótáblák készítésekor győződjön meg arról, hogy mindegyikhez van kulcs. Ez a kulcs biztosítja, hogy a dimenziók között ne legyenek több-többhöz (vagy más szóval "gyenge") kapcsolatok. A kulcsot úgy hozhatja létre, hogy valamilyen átalakítást alkalmaz annak érdekében, hogy egy oszlop vagy oszlopkombináció egyedi sorokat adjon vissza a dimenzióban. Ezután az oszlopok kombinációja megjelölhető kulcsként az adatfolyam táblájában.

Képernyőkép a Power Query átalakító lapról a Megjelölés kulcsként lehetőséggel és a tábla dátumoszlopában lévő kulcsikon kiemelésével.

Növekményes frissítés nagy ténytáblák esetén

A ténytáblák mindig a dimenziómodell legnagyobb táblái. Javasoljuk, hogy csökkentse a táblákhoz átvitt sorok számát. Ha nagyon nagy ténytáblával rendelkezik, győződjön meg arról, hogy növekményes frissítést használ az adott táblához. Növekményes frissítés elvégezhető a Power BI szemantikai modellben és az adatfolyam-táblákban is.

Növekményes frissítés használatával csak az adatok egy részét, a módosított részt frissítheti. Több lehetőség közül választhatja ki, hogy az adatok mely része frissüljön, és melyik rész legyen megőrizve. További információ: Növekményes frissítés használata Power BI-adatfolyamokkal.

Képernyőkép az adatfolyamok növekményes frissítési beállítási párbeszédpaneléről.

Hivatkozás dimenziók és ténytáblák létrehozására

A forrásrendszerben gyakran van egy tábla, amelyet tény- és dimenziótáblák létrehozására használ az adattárházban. Jó jelöltek számított táblának és köztes adatfolyamok számára ezek a táblák. A folyamat gyakori része – például az adattisztítás, valamint a további sorok és oszlopok eltávolítása – egyszer elvégezhető. A műveletek kimenetéből származó hivatkozással létrehozhatja a dimenzió- és ténytáblákat. Ez a módszer a számított táblát használja a gyakori átalakításokhoz.

Képernyőkép egy Rendelések lekérdezésről, amelyben a hivatkozási lehetőséget használják egy új lekérdezés létrehozására, amelynek neve Rendelések összesítve.