Megosztás a következőn keresztül:


Ajánlott eljárások dimenziómodellek adatfolyamok használatával történő létrehozásához

A dimenziómodell tervezése az adatfolyamokkal elvégezhető leggyakoribb feladatok egyike. Ez a cikk néhány ajánlott eljárást mutat be a dimenziómodell adatfolyamok használatával történő létrehozásához.

Adatfolyamok átmeneti előkészítése

Az adatintegrációs rendszerek egyik legfontosabb pontja a forrás operációs rendszerből származó olvasások számának csökkentése. A hagyományos adatintegrációs architektúrában ez a csökkentés egy új, átmeneti adatbázisnak nevezett adatbázis létrehozásával történik. Az átmeneti adatbázis célja, hogy az adatforrásból származó adatokat rendszeresen betöltse az átmeneti adatbázisba.

A többi adatintegráció ezt követően az előkészítési adatbázist fogja használni a további átalakításhoz, és átalakítja azt a dimenziómodell-struktúrába.

Javasoljuk, hogy ugyanezt a megközelítést kövesse adatfolyamok használatával. Hozzon létre egy adatfolyamkészletet, amely felelős az adatok forrásrendszerből való betöltéséért (és csak a szükséges táblákhoz). Az eredmény ezután az adatfolyam tárolási struktúrájában lesz tárolva (azure Data Lake Storage vagy Dataverse). Ez a módosítás biztosítja, hogy a forrásrendszerből származó olvasási művelet minimális legyen.

Ezután létrehozhat más adatfolyamokat is, amelyek az adatfolyamok átmeneti folyamatából származtatják az adatokat. Ennek a megközelítésnek az előnyei a következők:

  • A forrásrendszerből származó olvasási műveletek számának csökkentése és a forrásrendszer terhelésének csökkentése.
  • Az adatátjárók terhelésének csökkentése helyszíni adatforrás használata esetén.
  • Az adatok köztes másolata egyeztetés céljából, ha a forrásrendszer adatai megváltoznak.
  • Az átalakítási adatfolyamok forrásfüggetlensé tétele.

Átmeneti adatfolyamok.

Az átmeneti adatfolyamokat és az átmeneti tárterületet kiemelő kép, amelyen az előkészítési adatfolyam az adatforrásból elért adatokat, valamint a Cadaversben vagy az Azure Data Lake Storage-ban tárolt táblákat jeleníti meg. Ezután a táblák át lesznek alakítva más adatfolyamokkal együtt, amelyeket a rendszer lekérdezésekként küld ki.

Átalakítási adatfolyamok

Ha elválasztotta az átalakítási adatfolyamokat az átmeneti adatfolyamoktól, az átalakítás független lesz a forrástól. Ez az elkülönítés segít, ha a forrásrendszert egy új rendszerre migrálja. Ebben az esetben mindössze annyit kell tennie, hogy módosítja az átmeneti adatfolyamokat. Az átalakítási adatfolyamok valószínűleg probléma nélkül működnek, mert csak az átmeneti adatfolyamokból származnak.

Ez az elkülönítés abban az esetben is segít, ha a forrásrendszer-kapcsolat lassú. Az átalakítási adatfolyamnak nem kell sokáig várnia, hogy a rekordok lassú kapcsolaton keresztül érkezhessenek a forrásrendszerből. Az átmeneti adatfolyam már elvégezte ezt a részt, és az adatok készen állnak az átalakítási rétegre.

Az előző képhez hasonló kép, kivéve az átalakításokat, és a rendszer elküldi az adatokat az adattárháznak.

Rétegzett architektúra

A rétegzett architektúra olyan architektúra, amelyben külön rétegekben hajthat végre műveleteket. Az előkészítési és átalakítási adatfolyamok egy többrétegű adatfolyam-architektúra két rétegét is tartalmazhatják. A rétegekben végzett műveletek végrehajtása biztosítja a minimális karbantartást. Ha módosítani szeretne valamit, csak abban a rétegben kell módosítania, amelyben található. A többi rétegnek továbbra is jól kell működnie.

Az alábbi képen egy többrétegű architektúra látható az adatfolyamokhoz, amelyek tábláit ezután a Power BI szemantikai modelljeiben használják.

Többrétegű architektúra képe, ahol az átmeneti adatfolyamok és az átalakítási adatfolyamok külön rétegekben találhatók.

Számított tábla használata a lehető legnagyobb mértékben

Amikor egy adatfolyam eredményét egy másik adatfolyamban használja, a számított tábla fogalmát használja, ami azt jelenti, hogy adatokat kell lekérte egy "már feldolgozott és tárolt" táblából. Ugyanez történhet egy adatfolyamon belül is. Ha egy másik táblából származó táblára hivatkozik, használhatja a számított táblát. Ez akkor hasznos, ha több táblában végzett átalakításokat kell végrehajtania, amelyeket gyakori átalakításoknak nevezünk.

A gyakori átalakítások feldolgozásához használt adatforrásból származó számított táblát ábrázoló kép.

Az előző képen a számított tábla közvetlenül a forrásból szerzi be az adatokat. Az előkészítési és átalakítási adatfolyamok architektúrájában azonban valószínű, hogy a számított táblák az átmeneti adatfolyamokból származnak.

A gyakori átalakítások feldolgozásához használt adatfolyamokból származó számított tábla.

Csillagséma létrehozása

A legjobb dimenziómodell egy csillagsémamodell, amelynek dimenziói és ténytáblái úgy vannak kialakítva, hogy minimalizálják a modell adatainak lekérdezéséhez szükséges időt, és megkönnyítik az adatábrázoló megértését is.

Nem ideális, ha az operatív rendszer azonos elrendezésében lévő adatokat egy BI-rendszerbe viszi. Az adattáblákat újra kell átalakítani. Néhány táblának dimenziótábla formájában kell lennie, amely megőrzi a leíró információkat. Néhány táblának ténytábla formájában kell lennie, hogy megőrizze az összesíthető adatokat. A ténytáblák és dimenziótáblák legjobb elrendezése csillagséma. További információ: A csillagséma és a Power BI fontossága

Csillagséma képe, amely egy dimenziótáblák által körülvett ténytáblát ábrázol ötágú csillag formájában.

Egyedi kulcsérték használata dimenziókhoz

Dimenziótáblák készítésekor győződjön meg arról, hogy mindegyikhez van kulcs. Ez a kulcs biztosítja, hogy a dimenziók között ne legyen több-a-többhöz (vagy más szóval "gyenge") kapcsolat. A kulcsot úgy hozhatja létre, hogy valamilyen átalakítást alkalmaz annak érdekében, hogy egy oszlop vagy oszlopkombináció egyedi sorokat adjon vissza a dimenzióban. Ezután az oszlopok kombinációja megjelölhető kulcsként az adatfolyam táblájában.

Oszlop megjelölése kulcsértékként.

Növekményes frissítés nagy ténytáblák esetén

A ténytáblák mindig a dimenziómodell legnagyobb táblái. Javasoljuk, hogy csökkentse a táblákhoz átvitt sorok számát. Ha nagyon nagy ténytáblával rendelkezik, győződjön meg arról, hogy növekményes frissítést használ az adott táblához. Növekményes frissítés elvégezhető a Power BI szemantikai modellben és az adatfolyam-táblákban is.

Növekményes frissítés használatával csak az adatok egy részét, a módosított részt frissítheti. Több lehetőség közül választhatja ki, hogy az adatok mely része frissüljön, és melyik rész legyen megőrizve. További információ: Növekményes frissítés használata Power BI-adatfolyamokkal

Adatfolyamok növekményes frissítése.

Hivatkozás dimenziók és ténytáblák létrehozására

A forrásrendszerben gyakran van egy tábla, amelyet tény- és dimenziótáblák létrehozására használ az adattárházban. Ezek a táblák jó jelöltek a számított táblákhoz és a köztes adatfolyamokhoz is. A folyamat gyakori része – például az adattisztítás, valamint a további sorok és oszlopok eltávolítása – egyszer elvégezhető. A műveletek kimenetéből származó hivatkozással létrehozhatja a dimenzió- és ténytáblákat. Ez a módszer a számított táblát fogja használni a gyakori átalakításokhoz.

Egy Rendelések lekérdezést ábrázoló kép, amelyen a referenciabeállítással létrehoz egy új, Rendelések összesített lekérdezést.