Az adatmodellezés alapfogalmainak ismertetése

Befejeződött

Az elemzési modellek lehetővé teszik az adatok strukturálásához az elemzés támogatásához. A modellek kapcsolódó adattáblákon alapulnak, és meghatározzák az elemezni vagy jelenteni kívánt numerikus értékeket (más néven mértékeket), valamint azokat az entitásokat, amelyekkel összesíteni szeretné őket (más néven dimenziók). A modell tartalmazhat például egy táblázatot, amely számszerű értékesítési mértékeket (például bevételt vagy mennyiséget) és a termékek, ügyfelek és idő dimenzióit tartalmazza. Ez lehetővé tenné az értékesítési mértékek egy vagy több dimenzióban történő összesítését (például a teljes bevétel ügyfél szerinti azonosítását, vagy a termékenkénti értékesítések havi összegét). Elméletileg a modell egy többdimenziós struktúrát alkot, amelyet gyakran kockaként neveznek, amelyben minden pont, ahol a dimenziók metszenek egy összesített mértéket ezekhez a dimenziókhoz.)

A conceptual view of an analytical data model as a cube with dimensions for Product, Customer, and Time dimensions. A specific intersection point in the cube contains total revenue for a specific product sold to a specific customer in a specific month.

Megjegyzés:

Bár általában kockaként hivatkozunk egy elemzési modellre, három dimenziónál több (vagy kevesebb) is lehet – egyszerűen nem könnyű háromnál több vizualizációt vizualizálni!

Táblák és séma

A dimenziótáblák azokat az entitásokat jelölik, amelyekkel numerikus mértékeket szeretne összesíteni – például terméket vagy ügyfelet. Minden entitást egy egyedi kulcsértékkel rendelkező sor jelöl. A fennmaradó oszlopok egy entitás attribútumait jelölik – például a termékek nevei és kategóriái, az ügyfelek pedig címekkel és városokkal rendelkeznek. A legtöbb elemzési modellben gyakran előfordul, hogy idődimenziót is tartalmaz, hogy az eseményekhez kapcsolódó numerikus mértékek idővel összesíthetők.

A modell különböző dimenziói által összesítendő numerikus mértékek ténytáblákban vannak tárolva. A ténytábla minden sora egy rögzített eseményt jelöl, amelyhez numerikus mértékek vannak társítva. Az alábbi séma Sales táblája például az egyes cikkek értékesítési tranzakcióit jelöli, és numerikus értékeket tartalmaz az értékesített mennyiséghez és a bevételhez.

A schema of Customer, Product, and Time dimension tables related to a Sales fact table

Ezt a sémát, ahol egy ténytábla egy vagy több dimenziótáblához kapcsolódik, csillagsémaként nevezzük (tegyük fel, hogy öt dimenzió kapcsolódik egyetlen ténytáblához – a séma ötágú csillagot alkotna!). Egy összetettebb sémát is meghatározhat, amelyben a dimenziótáblák további, további részleteket tartalmazó táblákhoz kapcsolódnak (például a termékkategóriák attribútumait egy külön, a Termék táblához kapcsolódó Kategória táblában is jelölheti– ebben az esetben a kialakítást hópehelysémaként nevezzük. A tény- és dimenziótáblák sémája egy elemzési modell létrehozásához használható, amelyben a mérték aggregációi minden dimenzióban előre ki vannak számítva; az elemzési és jelentéskészítési tevékenységek teljesítménye sokkal gyorsabb, mint az összesítések minden egyes kiszámítása.)

Attribútumhierarchiák

Az elemzési modellekkel kapcsolatban érdemes megfontolni az attribútumhierarchiák létrehozását, amelyek lehetővé teszik a hierarchikus dimenzió különböző szintjein található összesített értékek gyors részletezését vagy lehatolását. Vegyük például az eddig tárgyalt dimenziótáblák attribútumait. A Termék táblában létrehozhat egy hierarchiát, amelyben az egyes kategóriák több elnevezett terméket is tartalmazhatnak. Hasonlóképpen, az Ügyfél táblában létrehozható egy hierarchia, amely több elnevezett ügyfelet jelöl minden városban. Végül az Idő táblában létrehozhatja az év, hónap és nap hierarchiáját. A modell előre összesített értékekkel hozható létre a hierarchia egyes szintjeihez, így gyorsan módosíthatja az elemzés hatókörét – például megtekintheti az összes értékesítést év szerint, majd lehatolással megtekintheti a teljes értékesítés hónap szerinti részletesebb lebontását.

A hiererchy defined for the Year, Month, and Day attributes in a Time dimension results in measures being aggregated for each level of the hierarchy

Elemzési modellezés a Microsoft Power BI-ban

A Power BI használatával adattáblákból definiálhat elemzési modellt, amely egy vagy több adatforrásból importálható. Ezután a Power BI Desktop Modell lapján található adatmodellezési felülettel definiálhatja az elemzési modellt a tény- és dimenziótáblák közötti kapcsolatok létrehozásával, a hierarchiák meghatározásával, a táblák mezőinek adattípusainak és megjelenítési formátumainak beállításával, valamint az adatok egyéb olyan tulajdonságainak kezelésével, amelyek segítenek egy gazdag elemzési modell meghatározásában.

The Model tab in Power BI Desktop