Az adatmodellezés alapfogalmainak ismertetése
Az elemzési modellek lehetővé teszik az adatok strukturálásához az elemzés támogatásához. A modellek kapcsolódó adattáblákon alapulnak, és meghatározzák az elemezni vagy jelenteni kívánt numerikus értékeket (más néven mértékeket), valamint azokat az entitásokat, amelyekkel összesíteni szeretné őket (más néven dimenziók). A modell tartalmazhat például egy táblázatot, amely számszerű értékesítési mértékeket (például bevételt vagy mennyiséget) és a termékek, ügyfelek és idő dimenzióit tartalmazza. Ez lehetővé tenné az értékesítési mértékek egy vagy több dimenzióban történő összesítését (például a teljes bevétel ügyfél szerinti azonosítását, vagy a termékenkénti értékesítések havi összegét). Elméletileg a modell egy többdimenziós struktúrát alkot, amelyet gyakran kockaként neveznek, amelyben minden pont, ahol a dimenziók metszenek egy összesített mértéket ezekhez a dimenziókhoz.)
Megjegyzés:
Bár általában kockaként hivatkozunk egy elemzési modellre, három dimenziónál több (vagy kevesebb) is lehet – egyszerűen nem könnyű háromnál több vizualizációt vizualizálni!
Táblák és séma
A dimenziótáblák azokat az entitásokat jelölik, amelyekkel numerikus mértékeket szeretne összesíteni – például terméket vagy ügyfelet. Minden entitást egy egyedi kulcsértékkel rendelkező sor jelöl. A fennmaradó oszlopok egy entitás attribútumait jelölik – például a termékek nevei és kategóriái, az ügyfelek pedig címekkel és városokkal rendelkeznek. A legtöbb elemzési modellben gyakran előfordul, hogy idődimenziót is tartalmaz, hogy az eseményekhez kapcsolódó numerikus mértékek idővel összesíthetők.
A modell különböző dimenziói által összesítendő numerikus mértékek ténytáblákban vannak tárolva. A ténytábla minden sora egy rögzített eseményt jelöl, amelyhez numerikus mértékek vannak társítva. Az alábbi séma Sales táblája például az egyes cikkek értékesítési tranzakcióit jelöli, és numerikus értékeket tartalmaz az értékesített mennyiséghez és a bevételhez.
Ezt a sémát, ahol egy ténytábla egy vagy több dimenziótáblához kapcsolódik, csillagsémaként nevezzük (tegyük fel, hogy öt dimenzió kapcsolódik egyetlen ténytáblához – a séma ötágú csillagot alkotna!). Egy összetettebb sémát is meghatározhat, amelyben a dimenziótáblák további, további részleteket tartalmazó táblákhoz kapcsolódnak (például a termékkategóriák attribútumait egy külön, a Termék táblához kapcsolódó Kategória táblában is jelölheti– ebben az esetben a kialakítást hópehelysémaként nevezzük. A tény- és dimenziótáblák sémája egy elemzési modell létrehozásához használható, amelyben a mérték aggregációi minden dimenzióban előre ki vannak számítva; az elemzési és jelentéskészítési tevékenységek teljesítménye sokkal gyorsabb, mint az összesítések minden egyes kiszámítása.)
Attribútumhierarchiák
Az elemzési modellekkel kapcsolatban érdemes megfontolni az attribútumhierarchiák létrehozását, amelyek lehetővé teszik a hierarchikus dimenzió különböző szintjein található összesített értékek gyors részletezését vagy lehatolását. Vegyük például az eddig tárgyalt dimenziótáblák attribútumait. A Termék táblában létrehozhat egy hierarchiát, amelyben az egyes kategóriák több elnevezett terméket is tartalmazhatnak. Hasonlóképpen, az Ügyfél táblában létrehozható egy hierarchia, amely több elnevezett ügyfelet jelöl minden városban. Végül az Idő táblában létrehozhatja az év, hónap és nap hierarchiáját. A modell előre összesített értékekkel hozható létre a hierarchia egyes szintjeihez, így gyorsan módosíthatja az elemzés hatókörét – például megtekintheti az összes értékesítést év szerint, majd lehatolással megtekintheti a teljes értékesítés hónap szerinti részletesebb lebontását.
Elemzési modellezés a Microsoft Power BI-ban
A Power BI használatával adattáblákból definiálhat elemzési modellt, amely egy vagy több adatforrásból importálható. Ezután a Power BI Desktop Modell lapján található adatmodellezési felülettel definiálhatja az elemzési modellt a tény- és dimenziótáblák közötti kapcsolatok létrehozásával, a hierarchiák meghatározásával, a táblák mezőinek adattípusainak és megjelenítési formátumainak beállításával, valamint az adatok egyéb olyan tulajdonságainak kezelésével, amelyek segítenek egy gazdag elemzési modell meghatározásában.