BI-megoldásarchitektúra a Kiválósági központban

Ez a cikk informatikai szakembereknek és informatikai vezetőknek szól. Megismerheti a Kiválósági központban alkalmazott BI-megoldásarchitektúrát és a különböző felhasznált technológiákat. Ilyen technológia többek között az Azure, a Power BI és az Excel. Ezek együttesen felhasználhatók egy skálázható, adatalapú BI-felhőplatform létrehozásához.

Egy robusztus BI-platform megtervezése sokban emlékeztet egy híd építésére, egy olyan hídéra, amely az átalakított és gazdagított forrásadatokat köti össze az adatfogyasztókkal. Egy ilyen összetett struktúra megtervezése mérnöki szemléletet kíván, ugyanakkor az egyik legkreatívabb és legeredményesebb informatikai architektúra is lehet. Nagyméretű szervezetekben a BI-megoldás architektúrája a következőkből állhat:

  • Adatforrások
  • Adatfeldolgozás
  • Big data / adatok előkészítése
  • Adatraktár
  • BI szemantikai modellek
  • Jelentések

Diagram, amely a BI-platform architektúráját ábrázolja az adatforrásoktól az adatfeldolgozáson, a big data jellegű adatokon, az adattárházon, a BI szemantikai modellezésen és a jelentéskészítésen át a gépi tanulásig.

A platformnak meghatározott igényeket kell kiszolgálnia. Konkrétan az üzleti szolgáltatások és az adatfogyasztók elvárásainak megfelelően kell skáláznia és teljesítenie. Ugyanakkor az alapoktól kezdve biztonságosnak is kell lennie. Emellett azonban kellően rugalmasnak kell lennie ahhoz, hogy alkalmazkodjon a változásokhoz – kétségtelen ugyanis, hogy idővel új adatok és felelősségi körök jelennek meg.

Keretrendszerek

A Microsoftnál kezdettől fogva egy rendszer jellegű megközelítést alkalmaztunk azáltal, hogy sokat fektettünk a keretrendszerek fejlesztésébe. A technikai és üzleti folyamatok keretrendszerei elősegítik a terv és a logika újrafelhasználását a konzisztens végeredmény érdekében. Sokféle technológia felhasználásával egyben az architektúra rugalmasságát is nyújtják, és a megismételhető folyamatokkal egyszerűsítik a mérnökök munkáját, és csökkentik a felesleges többletmunkát.

Rájöttünk, hogy a jól megtervezett keretrendszerek átláthatóbbá teszik az adatok életútját, befolyásolják a hatáselemzést, az üzleti logika karbantartását, a nevezéktan kezelését és az irányítás hatékonyságát. Emellett a fejlesztés is gyorsabbá, a nagy csapatok közötti együttműködés pedig rugalmasabbá és hatékonyabbá válik.

Ebben a cikkben több keretrendszerünket is bemutatjuk.

Adatmodellek

Az adatmodellek az adatok strukturálását és az azokhoz való hozzáférést is szabályozhatóvá teszik. Az üzleti szolgáltatások és az adatfogyasztók számára az adatmodellek a BI-platform interfészei.

Egy BI-platform háromféle modellt kínálhat:

  • Nagyvállalati modellek
  • BI szemantikai modellek
  • Gépi tanulási modellek

Nagyvállalati modellek

A nagyvállati modelleket informatikai mérnökök készítik el és tartják fenn. Olykor dimenziómodelleknek vagy adatpiacoknak is nevezik őket. Az adatok általában relációs formában, dimenzió- vagy ténytáblákként vannak tárolva. Ezek a táblák sok rendszerből konszolidált, megtisztított és gazdagított adatokat tárolnak, és ezek képezik a jelentéskészítés és az elemzés mérvadó forrását.

A nagyvállalati modellek egyetlen konzisztens adatforrást kínálnak a jelentéskészítéshez és az üzleti intelligenciához. Ezeket egyszer készítik el, majd vállalati szabványként osztják meg. A vállalatirányítási szabályzatok gondoskodnak az adatok biztonságáról, hogy a bizalmas adathalmazokhoz – például az ügyfelek információihoz vagy a pénzügyi adatokhoz – az igények alapján legyen korlátozva a hozzáférés. Elnevezési konvenciókkal biztosítják a konzisztenciát, ezzel tovább fokozva az adatok hitelességét és minőségét.

Felhőalapú BI-platformon a nagyvállalati modellek üzembe helyezhetők egy Synapse SQL-készletben az Azure Synapse-ban. Ilyenkor az Synapse SQL-készlet lesz a vállalatnál a tények egyetlen változata, amelyre a vállalat a gyors és robusztus elemzéseket alapozhatja.

BI szemantikai modellek

A BI szemantikai modellek egy szemantikai réteget képeznek a nagyvállalati modellek felett. Ezeket BI-fejlesztők és üzleti felhasználók készítik és tartják fenn. A BI-fejlesztők központi BI szemantikai modelleket készítenek, amelyek nagyvállalati modellekből szerzik be az adatokat. Az üzleti felhasználók kisebb, független modelleket készíthetnek – de a központi BI szemantikai modelleket is kiterjeszthetik a részleghez tartozó vagy külső forrásokkal. A BI szemantikai modellek általában egyetlen szakterületre összpontosítanak, és gyakran széles körben megosztják őket.

Az üzleti képességeket nem csupán az adatok, hanem a fogalmakat, kapcsolatokat, szabályokat és szabványokat leíró BI szemantikai modellek is biztosítják. Így intuitív és érthető struktúrákat képeznek, amelyek definiálják az adatkapcsolatokat, és számításokként foglalják magukban az üzleti szabályokat. Képesek a részletes adatengedélyek kikényszerítésére is, ezzel biztosítva, hogy az adatokhoz csak a megfelelő személyek férjenek hozzá. Lényeges, hogy a lekérdezések teljesítményének javításával rendkívül gyorsan válaszoló, interaktív elemzéseket kínálnak – akár több terabájt adatról is. A nagyvállalati modellekhez hasonlóan a BI szemantikai modellek is elnevezési konvenciókkal járulnak hozzá a konzisztenciához.

A BI-fejlesztők egy felhőalapú BI-platformon, az Azure Analysis Servicesben vagy Power BI Premium-kapacitásokban helyezhetnek üzembe BI szemantikai modelleket. Ajánlott a Power BI-beli üzembe helyezés, ha azt használják jelentéskészítési és elemzési rétegként. Ezek a termékek különböző tárolási módokat támogatnak, így az adatmodell táblázatai gyorsítótárazhatják az adatokat, vagy használhatnak DirectQueryt, amely a lekérdezéseket a mögöttes adatforráshoz továbbító technológia. A DirectQuery akkor ideális tárolási mód, ha a modell táblázatai nagy adattömegeket tárolnak, és nem szükséges közel valós idejű eredményeket szolgáltatni. A két tárolási mód kombinálható: Az összetett modellek különböző tárolási módokat használó táblázatokat kombinálnak egyetlen modellben.

Gyakran lekérdezett adatmodellek esetén az Azure Load Balancer használható a lekérdezési terhelésnek a modell replikái közötti egyenletes elosztására. Ezzel lehetővé válik az alkalmazások skálázása, és a magas rendelkezésre állású BI szemantikai modellek készítése.

Gépi tanulási modellek

A gépi tanulási modelleket adattudósok készítik és tartják fenn. Többnyire egy adattó nyers forrásaiból vannak kifejlesztve.

A betanított gépi tanulási modellek képesek mintázatokat felfedezni az adatokban. Ezen mintázatok alapján sok esetben az adatok gazdagítására felhasználható előrejelzések készíthetők. A vásárlói viselkedés például felhasználható az ügyfélforgalom előrejelzésére, vagy a az ügyfelek osztályozására. Az előrejelzési eredményeket egy nagyvállalati modellbe felvéve lehetővé válik az ügyfélszegmensek szerinti elemzés.

Felhőbeli BI-platformon az Azure Machine Learning használható a gépi tanulási modellek betanítására, üzembe helyezésére, automatizálására, kezelésére és nyomon követésére.

Adattárház

A BI-platform szíve a nagyvállalati modelleket tartalmazó adattárház. Ez a jóváhagyott adatok forrása – mint rögzítési rendszer és központ –, amely nagyvállalati modelleket szolgáltat a jelentéskészítéshez, az üzleti intelligenciához és az adatelemzéshez.

Sok üzleti szolgáltatás, köztük az üzletági alkalmazások is az adattárházat használhatják a nagyvállalati adatok mérvadó és szabályozott forrásaként.

A Microsoft adattárháza az Azure Data Lake Storage Gen2 (ADLS Gen2) és az Azure Synapse Analytics szolgáltatásban van üzemeltetve.

Az Azure Synapse Analytics és az Azure Data Lake Storage Gen2 kapcsolatát szemléltető ábra.

  • Az ADLS Gen2 az Azure Storage-ot teszi a nagyvállalati adattavak készítésének alapjává. Úgy tervezték, hogy több petabájtos nagyságrendű adatmennyiséget szolgáltasson, tartósan több száz gigabites átviteli sebesség mellett. Emellett alacsony költségű tárolókapacitást és tranzakciókat is kínál. Ráadásul támogatja a Hadoop-kompatibilis hozzáférést, ezáltal az adatok ugyanúgy érhetők el és kezelhetők, mint a Hadoop elosztott fájlrendszerben (HDFS). Így az Azure HDInsight, az Azure Databricks és az Azure Synapse Analytics is hozzáférhet az ADLS Gen2-ben tárolt adatokhoz. Egy BI-platformon tehát jó választás a nyers forrásadatok, a félig feldolgozott vagy előkészített adatok, és az éles felhasználásra kész adatok tárolására is. Mi ezt használjuk az összes üzleti adat tárolására.
  • Az Azure Synapse Analytics egy elemzőszolgáltatás, amely egyesíti a vállalati adattárházakat és a Big Data-elemzéseket. Lehetővé teszi, hogy saját tetszőleges módon kérje le az adatokat, kiszolgáló nélküli igény szerinti vagy kiosztott erőforrásokkal, nagy mennyiségben. Az Azure Synapse Analytics összetevője, a Synapse SQL támogatja a teljes T-SQL-alapú elemzéseket, ezért ideális a dimenzió- és ténytáblákból álló nagyvállalati modellek üzemeltetéséhez. A táblák egyszerű Polybase T-SQL lekérdezésekkel, hatékonyan tölthetők be az ADLS Gen2-ből. Ez után a nagymértékben párhuzamos feldolgozás (MPP) hatékonyságával futtathatók a nagy teljesítményű elemzések.

Üzleti szabálymotor-keretrendszer

Kifejlesztettünk egy üzleti szabálymotor (BRE) keretrendszert az összes olyan üzleti logika katalogizálására, amely az adattárház-rétegben megvalósítható. Egy BRE sok mindent jelenthet, de az adattárházi környezetben a haszna a számított oszlopok létrehozása a relációs táblákban. Ezek a számított oszlopok általában matematikai számításokként, vagy feltételes utasításokat tartalmazó kifejezésekként jelennek meg.

A cél az üzleti logika elválasztása a központi BI-kódtól. Az üzleti szabályok hagyományosan tárolt SQL-eljárásokba vannak kódolva, ez pedig gyakran ahhoz vezet, hogy rengeteg munkát igényel a karbantartásuk, ha az üzletnek változnia kell. Egy BRE-ben az üzleti szabályok egyszer vannak definiálva, és többször felhasználhatók, amikor különböző adattárház-entitásokra vannak alkalmazva. Ha a számítási logikán változtatni kell, sok tárolt eljárás helyett csupán egy helyen kell módosítani. Ez egy további előnnyel is jár: egy BRE-keretrendszer átláthatóbbá és áttekinthetőbbé teszi a megvalósított üzleti logikát, amely önfrissítő dokumentációt képező jelentésekkel tehető elérhetővé.

Adatforrások

Egy adattárház gyakorlatilag bármilyen adatforrásból konszolidálhat adatokat. Többnyire üzletági alkalmazások adatforrásaira épül, amelyek általában relációs adatbázisok, és a szakterületnek megfelelő értékesítési, marketinges, pénzügyi vagy más adatokat tartalmaznak. Ezek az adatbázisok lehetnek a felhőben vagy a helyszínen üzemeltetve. Más adatforrások lehetnek fájlalapúak, ilyenek elsősorban a webnaplók vagy az eszközökről származó IoT-adatok. Az adatok ezen felül szolgáltatott szoftverek szállítóitól is származhatnak.

A Microsoftnál néhány belső rendszer közvetlenül az ADLS Gen2-be küld üzemeltetési adatokat nyers fájlformátumokban. Az adattavunkon kívüli egyéb forrásrendszerek közé tartoznak a relációs üzletági alkalmazások, az Excel-munkafüzetek, más fájlalapú források, valamint a törzsadatkezelési (MDM) és egyéni adattárak. Az MDM-adattárak teszik lehetővé, hogy a törzsadatok kezelésével az adatok mérvadó, szabványosított és ellenőrzött verzióit biztosítsuk.

Adatfeldolgozás

Rendszeres időközönként, az üzlet ritmusához igazodva, az adatok a forrásrendszerekből az adattárházba vannak betöltve. Ez történhet naponta egyszer, vagy gyakrabban is. Az adatfeldolgozás része az adatok kinyerése, átalakítása és betöltése is. Ez történhet más sorrendben is: az adatok kinyerésével, betöltésével, majd átalakításával. A különbség lényege az adatok átalakításának helye. Az átalakítások az adatok tisztítását, egységes formázását, integrálását és szabványosítását szolgálják. További információ: Kinyerés, átalakítás és betöltés (ETL).

A végső cél, hogy a megfelelő adatok a lehető leggyorsabban és leghatékonyabban legyenek betöltve a nagyvállalati modellbe.

Mi a Microsoftnál az Azure Data Factoryt (ADF) használjuk. A szolgáltatásokat arra használjuk, hogy ütemezze és vezényelje az adatok ellenőrzését, átalakítását, és a külső forrásrendszerekből az adattóba történő tömeges betöltését. Egyéni keretrendszerek felügyelik az adatok párhuzamos, nagy méretekben végzett feldolgozását. Emellett átfogó naplózás is zajlik a hibaelhárítás és a teljesítményfigyelés támogatására, valamint a riasztási értesítések aktiválására bizonyos feltételek teljesülésekor.

Emellett az Azure Databricks – egy Apache Spark-alapú, az Azure felhőszolgáltatási platformra optimalizált elemzési platform – kimondottan adatelemzési célú átalakításokat végez. Ez készíti el és futtatja a gépi tanulási modelleket is, Python-jegyzetfüzetek használatával. Ezeknek a gépi tanulási modelleknek az eredményei be vannak töltve az adattárházba, hogy az előrejelzések integrálva legyenek a nagyvállalati alkalmazásokkal és jelentésekkel. Mivel az Azure Databricks közvetlenül fér hozzá az adattó fájljaihoz, szinte teljesen szükségtelenné válik az adatok másolása vagy beolvasása.

Ábra, amely azt szemlélteti, ahogyan az Azure Data Factory beszerzi az adatokat, és vezényli az adatfolyamatokat az Azure Data Lake Storage Gen2-re támaszkodó Azure Databricks szolgáltatással.

Feldolgozási keretrendszer

Kifejlesztettünk egy feldolgozási keretrendszert, amely konfigurációs táblázatokból és eljárásokból áll. Támogatja a nagy adatmennyiségek gyors betöltésének adatalapú megközelítését, amely minimális kódolást igényel. Röviden, ez a keretrendszer egyszerűbbé teszi az adatok adattárházba történő betöltésének folyamatát.

A keretrendszer olyan konfigurációs táblázatokat használ, amelyek az adatforrásra és az adat rendeltetési helyére vonatkozó olyan információkat tartalmaznak, mint a forrás típusa, a kiszolgáló, az adatbázis, a séma és a táblákra vonatkozó részletek. Ez a tervezési mód azzal jár, hogy nincs szükség meghatározott ADF-folyamatok vagy SQL Server Integration Services (SSIS) csomagok fejlesztésére. Az eljárások ehelyett tetszőleges nyelven megírhatók a dinamikusan generált és futtatáskor végrehajtott ADF-folyamatok létrehozására. Az adatgyűjtés tehát egyszerűen bevezethető konfigurációs gyakorlattá vált. Az előre kódolt ADF- vagy SSIS-csomagok létrehozásához a hagyományos módon rengeteg fejlesztési erőforrásra lenne szükség.

A feldolgozási keretrendszer úgy van megtervezve, hogy a felsőbb rétegbeli forrás sémaváltozásainak kezelését is egyszerűbbé tegye. A konfigurációs adatok könnyen módosíthatók – manuálisan vagy automatikusan –, ha újonnan felvett attribútumok betöltésére vonatkozó sémaváltozás észlelhető a forrásrendszerben.

Vezénylési keretrendszer

Kifejlesztettünk egy vezénylési keretrendszert az adatfolyamatok üzembe helyezéséhez és vezényléséhez. Adatalapú tervet használ, amely konfigurációs táblázatok halmazára épül. Ezek a táblázatok metaadatokat tartalmaznak, amelyek leírják a folyamatok függőségeit, és a forrásadatoknak a cél-adatstruktúrára való leképezését. Ennek az adaptív keretrendszernek kifejlesztése már kifizetődött: többé nem követelmény, hogy minden adatmozgás kódolva legyen.

Adattárolás

Egy adattó nagy mennyiségű nyers adatot tárolhat későbbi felhasználásra, és az adatátalakítások előkészítésére.

A Microsoftnál az ADLS Gen2-t használjuk egyetlen tényforrásként. Ez együtt tárolja a nyers, előkészített, és éles felhasználásra kész adatokat. Nagy mértékben méretezhető és költséghatékony adattó-megoldást kínál big data-elemzésekhez. A nagy teljesítményű fájlrendszer hatékonyságát a nagy méretekkel kombinálva optimális az adatelemzési számítási feladatokhoz, és gyorsabban érhetők el az elemzési eredmények.

Az ADLS Gen2 mindkét terület előnyeit egyesíti: blobtároló és nagy teljesítményű fájlrendszer-névtér, amelyet részletes hozzáférési engedélyekkel konfigurálunk.

A finomított adatok ez után egy relációs adatbázisban vannak tárolva, amely nagy teljesítményű, nagy mértékben skálázható adattárat nyújt a nagyvállalati modellekhez biztonsággal, irányítással, és kezelhetőséggel. A szakterület-specifikus adatpiacok az Azure Synapse Analyticsben vannak tárolva, és az Azure Databricks vagy Polybase T-SQL-lekérdfezések segítségével vannak betöltve.

Adathasználat

A jelentéskészítési rétegben az üzleti szolgáltatások az adattárházból származó nagyvállalati adatokat használnak fel. Az adatokhoz közvetlenül az adattóban is hozzáférnek az alkalmi elemzések vagy adattudományi tevékenységek céljából.

Minden rétegben, az adattóban, a nagyvállalati modellekben és a BI szemantikai modellekben is részletes engedélyek vannak érvényben. Az engedélyek biztosítják, hogy az adatfogyasztók csak azokat az adatokat lássák, amelyekhez jogosultak hozzáférni.

Mi a Microsoftnál Power BI-jelentéseket és irányítópultokat, valamint többoldalas Power BI-jelentéseket használunk. A jelentéskészítés és az alkalmi elemzések egy részét az Excelben végezzük – főleg a pénzügyi jelentések készítésekor.

Adatszótárakat teszünk közzé, amelyek referencia-információkat nyújtanak az adatmodellekről. Ezeket elérhetővé tesszük a felhasználók számára, hogy felfedezhessék a BI-platformmal kapcsolatos információkat. A szótárak dokumentálják a modellterveket, és megadják az entitások, formátumok, struktúrák, adatéletutak, kapcsolatok és számítások leírását. Az adatforrásokat az Azure Data Catalog használatával tesszük könnyen felfedezhetővé és érthetővé.

Az adatfelhasználási mintázatok általában szerepkörönként változnak:

  • Az adatelemzők közvetlenül a központi BI szemantikai modellekhez csatlakoznak. Ha a központi BI szemantikai modellek az összes számukra szükséges adatot és logikát tartalmazzák, akkor élő kapcsolattal hoznak létre Power BI-jelentéseket és irányítópultokat. Ha a modelleket a részlegek adataival kell kiegészíteniük, összetett modelleket hoznak létre a Power BI-ban. Ha számolótábla jellegű jelentésekre van szükség, az Excelt használják a központi BI szemantikai modellekre és a részlegek BI szemantikai modelljeire épülő jelentések előállítására.
  • A BI-fejlesztők és az üzemeltetési jelentések készítői közvetlenül a nagyvállalati modellekhez csatlakoznak. A Power BI Desktop használatával készítenek élő kapcsolatú elemzési jelentéseket. Üzemeltetési jellegű BI-jelentéseket is készíthetnek többoldalas Power BI-jelentések formájában, natív SQL-lekérdezések megírásával, amelyek az Azure Synapse Analytics nagyvállalati modelljeihez férnek hozzá T-SQL használatával, vagy Power BI szemantikai modellekhez a DAX vagy az MDX használatával.
  • Az adattudósok közvetlenül az adattóban lévő adatokhoz csatlakoznak. Az Azure Databricks vagy Python-jegyzetfüzetek használatával fejlesztenek gépi tanulási modelleket, amelyek gyakran kísérleti jellegűek, és az éles üzemben a felhasználásuk speciális szakértelmet kíván.

Az Azure Synapse Analytics Power BI-jal, Exellel és Azure Machine Learninggel történő felhasználását bemutató ábra.

Következő lépések

Erről a cikkről a következő forrásanyagokban talál további információt:

Professzionális szolgáltatások

A minősített Power BI-partnerek segíthetnek, hogy a szervezet sikeresen kialakíthassa a COE-t. Költséghatékony képzést vagy adatelemzést nyújthatnak. Power BI-partner bevonásához látogasson el a Power BI partnerportálra.

Tapasztalt tanácsadói partnerekkel is felveheti a kapcsolatot. Segíthetnek a Power BI felmérésében, kiértékelésében vagy alkalmazásában.