Architektúra riešenia BI v centre excelentnosti
Tento článok sa zameriava na profesionálov a manažérov v oblasti IT. Získate informácie o architektúre riešenia BI v CE a rôznych používaných technológiách. Tieto technológie zahŕňajú Azure, Power BI a Excel. Spolu môžu byť využité na poskytovanie škálovateľnej cloudovej platformy BI riadenej údajmi.
Navrhovanie robustnej platformy BI je ako stavanie mosta. most, ktorý spája transformované a obohatené zdrojové údaje s používateľmi údajov. Návrh takejto komplexnej štruktúry si vyžaduje inžinierske myslenie, no môže byť aj jednou z najkreatívnejších a najvďačnejších IT architektúr, ktoré možno navrhnúť. Vo veľkej organizácii môže architektúru riešenia BI tvoriť:
- Zdroje dát
- Prijímanie údajov
- Veľký objem údajov/príprava údajov
- Sklad údajov
- Sémantické modely BI
- Zostavy
Platforma musí podporovať špecifické požiadavky. Konkrétne musí škálovať a fungovať tak, aby vyhovovala očakávaniam podnikových služieb a spotrebiteľov údajov. Zároveň však musí byť od základov zabezpečená. Je tiež potrebné, aby sa dostatočne pružne prispôsobovala zmenám, pretože v čase určite bude potrebné priniesť do online prostredia nové údaje a oblasti zamerania.
Rámcov
V spoločnosti Microsoft sme od začiatku zaujali systémový prístup a investovali sme do vývoja architektúr. Architektúry technických a obchodných procesov zvyšujú opätovné použitie návrhu a logiky a poskytujú konzistentný výsledok. Takisto ponúkajú flexibilitu v architektúre tým, že využívajú mnohé technológie, a prostredníctvom opakovaných procesov zjednodušujú a znižujú využívanie technickým prostriedkov.
Naučili sme sa, že vhodne navrhnuté rámce zvyšujú viditeľnosť pôvodu údajov, analýzu vplyvu, údržbu obchodnej logiky, spravovanie taxonómie a efektívnu správu. Zároveň došlo k zrýchleniu vývoja a spolupráca v rámci veľkých tímov sa stala responzívnejšou a efektívnejšou.
V tomto článku popíšeme niekoľko našich architektúr.
Dátové modely
Dátové modely poskytujú kontrolu nad tým, ako sú údaje štruktúrované a ako sa k nim pristupuje. Pre podnikové služby a spotrebiteľov údajov sú dátové modely ich rozhraním pomocou platformy BI.
Platforma BI môže poskytovať tri rôzne typy modelov:
- Podnikové modely
- Sémantické modely BI
- modely strojové učenie (strojového učenia)
Podnikové modely
Podnikové modely zostavujú a spravujú IT architekti. Niekedy sa označujú aj ako dimenzionálne modely alebo trhy údajov. Údaje sú zvyčajne uložené v relačnom formáte ako tabuľky dimenzií a faktov. Tieto tabuľky ukladajú vyčistené a obohatené údaje zlúčené z mnohých systémov a predstavujú hlavný zdroj pre tvorbu zostáv a analýzu.
Podnikové modely poskytujú konzistentný a jednotný zdroj údajov pre vytváranie zostáv a BI. Zostava je vytvorená a zdieľaná ako podnikový štandard. Politiky riadenia zaisťujú zabezpečenie údajov, aby bol prístup k množinám citlivých údajov, akými sú informácie o zákazníkoch alebo finančné informácie, obmedzený na základe potreby. Používajú názvoriadenie zaisťujúce konzistentnosť, a tým ešte viac stanovujú kredibilitu údajov a kvalitu.
V cloudovej platforme BI môžu byť podnikové modely nasadené do fondu Synapse SQL v službe Azure Synapse. Fond Synapse SQL sa potom stane jedinou pravdivou verziou, na základe čoho sa organizácia môže spoľahnúť na rýchle a robustné prehľady.
Sémantické modely BI
Sémantické modely BI predstavujú sémantickú vrstvu podnikových modelov. Sú zostavené a udržiavané vývojármi v oblasti BI a podnikovými používateľmi. Vývojári v oblasti BI vytvárajú základné sémantické modely, ktoré získavajú údaje z podnikových modelov. Podnikoví používatelia môžu vytvárať menšie, nezávislé modely alebo môžu rozšíriť základné sémantické modely BI prostredníctvom zdrojov oddelení alebo externých zdrojov. Sémantické modely BI sa zvyčajne zameriavajú na jednu oblasť a často sa zdieľajú.
Podnikové možnosti nie sú podporované samotnými údajmi, ale sémantickými modelmi BI, ktoré popisujú koncepty, vzťahy, pravidlá a štandardy. Týmto spôsobom predstavujú intuitívne a jednoducho zrozumiteľné štruktúry, ktoré definujú vzťahy údajov a zapuzdrujú podnikové pravidlá ako výpočty. Môžu tiež vynútiť diferencované povolenia pre údaje, čím sa zabezpečí, aby k správnym údajom mali prístup len správni ľudia. Dôležitou vecou je, že urýchľujú výkon dotazov, poskytujú výnimočne responzívnu interaktívnu analýzu, a to aj v prípade terabajtov údajov. Tak ako v prípade podnikových modelov, aj sémantické modely BI prijímajú názvonáru zaisťujúce konzistentnosť.
V cloudovej platforme BI môžu vývojári v oblasti BI nasadzovať sémantické modely BI v službe Azure Analysis Services, kapacity služby Power BI Premium kapacít služby Microsoft Fabric.
Dôležité
V čase, keď sa tento článok týka služby Power BI Premium alebo jej predplatných kapacity (skladové jednotky SKU P). Spoločnosť Microsoft v súčasnosti konsoliduje možnosti nákupu a vyradí skladové jednotky SKU služby Power BI Premium na kapacitu. Noví a existujúci zákazníci by namiesto toho mali zvážiť zakúpenie predplatného kapacity služby Fabric (skladové jednotky F SKU).
Ďalšie informácie nájdete v téme Dôležitá aktualizácia pre licencie Power BI Premium a Power BI Premium: najčastejšie otázky.
Odporúčame nasadenie do služby Power BI, ak ju používate na vytváranie zostáv a analýz. Tieto produkty podporujú rôzne režimy úložiska a umožňujú tabuľkám dátových modelov ukladať údaje do vyrovnávacej pamäte alebo používať režim DirectQuery, čo je technológia, ktorá prenáša dotazy cez základný zdroj údajov. DirectQuery je ideálnym režimom úložiska v prípade, keď tabuľky modelu predstavujú veľké objemy údajov alebo keď je potrebné poskytnúť výsledky takmer v reálnom čase. Tieto dva režimy úložiska možno kombinovať: Zložené modely kombinujú tabuľky, ktoré používajú rôzne režimy úložiska v jednom modeli.
V prípade výrazne dotazovaných modelov sa môže použiť Azure Load Balancer, aby sa rovnomerne rozložilo načítanie dotazov v rámci replík modelov. Umožní vám tiež škálovať aplikácie a vytvárať vysoko dostupné sémantické modely BI.
modely strojové učenie,
strojové učenie modely sú zostavované a udržiavané dátovými vedcami. Zvyčajne sú vytvárané z nespracovaných zdrojov v dátovom jazere.
Trénované modely strojového učenia dokážu vo vašich údajoch odhaliť vzory. V mnohých prípadoch tieto vzory možno použiť na vytvorenie predpovedí, ktoré sa dajú použiť na obohatenie údajov. Napríklad nákupné správanie možno použiť na predpovedanie odchodu zákazníka alebo zákazníkov segmentu. Výsledky predikcií je možné pridať do podnikových modelov, a tým umožniť analýzu podľa zákazníckeho segmentu.
V cloudovej platforme BI môžete pomocou služby Azure strojové učenie trénovať, nasadzovať, automatizovať, spravovať a sledovať modely strojového učenia.
Sklad údajov
V centre platformy BI je sklad údajov, ktorý hosťuje vaše podnikové modely. Je zdrojom sankcionovaných údajov – ako systém záznamu a centrum slúži podnikovým modelom na vytváranie zostáv, BI a dátovú vedu.
Mnohé podnikové služby vrátane podnikových (LOB) aplikácií sa na sklad údajov môžu spoľahnúť ako na autoritatívny a riadený zdroj podnikových vedomostí.
V spoločnosti Microsoft máme sklad údajov hosťovaný v úložisku Azure Data Lake Storage Gen2 (ADLS Gen2) a službe Azure Synapse Analytics.
- ADLS Gen2 robí z Azure Storage základ na tvorbu podnikových dátových jazier v službe Azure. Je navrhnutá tak, aby obsluhovala viacero petabajtov informácií a zároveň udržala stovky gigabitov priepustnosti. Ponúka tiež nenákladné ukladacie kapacity a transakcie. Okrem toho podporuje prístup kompatibilný so protokolom Hadoop, čo vám umožňuje spravovať údaje a pristupovať k nim rovnako ako pri systéme súborov DFS servera Hadoop (HDFS). Azure HDInsight, Azure Databricks a Azure Synapse Analytics dokážu pristupovať k údajom uloženým v službe ADLS Gen2. V platforme BI je preto dobré uložiť si nespracované zdrojové údaje, čiastočne spracované alebo fázované údaje a údaje pripravené pre produkciu. Používame ju na ukladanie všetkých našich obchodných údajov.
- Azure Synapse Analytics je analytická služba, ktorá spája uschovávanie podnikových údajov a analýzu Big Data. Poskytuje vám slobodu dotazovať údaje podľa vašich požiadaviek, a to buď bezserverovo na požiadanie, alebo prostredníctvom poskytovaných zdrojov – vo väčšom meradle. Synapse SQL, súčasť služby Azure Synapse Analytics, podporuje úplnú analýzu založenú na T-SQL, takže je ideálny na hosťovanie podnikových modelov tvorených vašimi tabuľkami dimenzií a faktov. Tabuľky možno účinne načítať zo služby ADLS Gen2 pomocou jednoduchých dotazov Polybase T-SQL . Získate tak výkon MPP, ktorý vám umožní púšťať vysoko výkonnú analýzu.
Architektúra Business Rules Engine
Vyvinuli sme architektúru Business Rules Engine (BRE), ktorá katalogizuje každú obchodnú logiku, ktorú možno implementovať do vrstvy skladu údajov. BRE môže predstavovať mnoho vecí, ale v kontexte skladu údajov je užitočná na vytváranie vypočítaných stĺpcov v relačných tabuľkách. Tieto vypočítané stĺpce sú zvyčajne vyjadrené ako matematické výpočty alebo výrazy používajúci podmienené príkazy.
Zámerom je oddeliť obchodnú logiku od základného kódu BI. Podnikové pravidlá sú zvyčajne pevne zakódované do uložených procedúr SQL, takže často vedie k veľkému úsiliu na to, aby boli zachované vtedy, keď podnik potrebuje vykonať zmeny. V prípade BRE sú podnikové pravidlá definované raz a používané mnohokrát, keď sa používajú pre rôzne entity skladov údajov. Ak výpočtová logika vyžaduje zmenu, je ju potrebné aktualizovať len na jednom mieste a nie v prípade množstva uložených procedúr. Je tu aj bočná výhoda: rámec BRE podporuje transparentnosť a viditeľnosť implementovanej obchodnej logiky, ktorá sa môže zobraziť prostredníctvom množiny zostáv, ktoré vytvárajú vlastnú dokumentáciu.
Zdroje dát
Sklad údajov môže údaje konsolidovať z prakticky ľubovoľného zdroja údajov. Väčšinou je vytvorený prostredníctvom zdrojov údajov LOB, ktoré sú zvyčajne relačnými databázami ukladacími údajmi o špecifickej oblasti predaja, marketingu, financií atď. Tieto databázy môžu byť hosťované v cloude alebo sa môžu nachádzať lokálne. Iné zdroje údajov môžu byť súborové, najmä webové denníky alebo údaje IOT pochádzajúce zo zariadení. Okrem toho môžu údaje pochádzať aj od dodávateľov SaaS (softvér vo forme služby).
V spoločnosti Microsoft niektoré z našich interných systémov poskytujú operačné údaje prostredníctvom nespracovaných formátov súborov priamo službe ADLS Gen2. Okrem nášho dátového jazera sú tu aj iné zdrojové systémy, ktoré zahŕňajú relačné PODNIKOVÉ (LOB) aplikácie, excelové zošity, iné súborové zdroje, Master Data Management a vlastné odkladacie priestory údajov. Odkladacie priestory MDM nám umožňujú spravovať hlavné údaje a zaistiť autoritatívne, štandardizované a overené verzie údajov.
Prijímanie údajov
Údaje sú na pravidelnej báze a v súlade s rytmom podniku získavané zo zdrojových systémov a načítavané do skladu údajov. Môže to byť raz za deň alebo v častejších intervaloch. Príjem údajov sa spája s extrahovaním, transformáciou a načítavaním údajov. Alebo možno v inom kole: extrahovanie, načítanie a následne transformácia údajov. Rozdiel je v tom, kde prebieha transformácia. Transformácie sa používajú na vyčistenie, zhodu, integrovanie a štandardizáciu údajov. Ďalšie informácie nájdete v téme Extrahovanie, transformácia a načítanie.
Cieľom je načítať správne údaje do podnikového modelu tak rýchlo a efektívne, ako je to možné.
V spoločnosti Microsoft používame službu Azure Data Factory (ADF). Služba sa používa na plánovanie a koordinovanie overení, transformácií a hromadného načítavania z externých zdrojových systémov do nášho dátového jazera. Je spravovaná prostredníctvom vlastných architektúr, aby spracovávala údaje paralelne a vo väčšom meradle. Okrem toho sa vykonáva komplexné zapisovanie do denníka, ktoré slúži ako podpora pri riešení problémov, na monitorovanie výkonu a na spustenie upozornení pri splnení konkrétnych podmienok.
Okrem toho Azure Databricks, analytická platforma založená na Apache Spark, ktorá je optimalizovaná pre platformu cloudových služieb Azure, vykonáva transformácie špecificky pre dátovú vedu. Takisto je zostava a spúšťa modely strojového učenia pomocou poznámkových blokov v jazyku Python. Výsledky z týchto modelov strojového učenia sa načítavajú do skladu údajov a integrujú predpovede s podnikovými aplikáciami a zostavami. Keďže Azure Databricks pristupuje priamo k súborom dátového jazera, eliminuje alebo minimalizuje potrebu kopírovania alebo získavania údajov.
Architektúra príjmu
Architektúru príjmu sme vyvinuli ako množinu konfiguračných tabuliek a procedúr. Podporuje prístup riadený údajmi zameraný na rýchle získavanie veľkých objemov údajov s minimálnym kódom. Stručne povedané, táto architektúra zjednodušuje proces získavania údajov na načítanie skladu údajov.
Táto architektúra závisí od konfiguračných tabuliek, ktoré ukladajú zdroj údajov a informácie o cieľovom mieste údajov, ako je napríklad typ zdroja, server, databáza, schéma a podrobnosti týkajúce sa tabuliek. Tento prístup k návrhu znamená, že nemusíme vyvíjať špecifické kanály ADF alebo balíky SSIS (SQL Server Integration Services). Namiesto toho sú procedúry písané v jazyku podľa nášho výberu, aby sa vytvorili kanály ADF, ktoré sú dynamicky generované a vykonávané v čase spustenia. Získavanie údajov sa tak stáva konfiguráciou, ktorá sa jednoducho vykonáva. Bežne by vytvorenie pevne zakódovaných balíkov ADF alebo SSIS vyžadovalo rozsiahle vývojárske zdroje.
Architektúra príjmu bola tiež navrhnutá tak, aby zjednodušila proces spracovania zmien upstreamovej zdrojovej schémy. Manuálna alebo automatická aktualizácia konfiguračných údajov sa jednoducho vykoná, keď sa zistí, že sa zmenami schémy získali novo pridané atribúty v zdrojovom systéme.
Architektúra slúžiaci na koordináciu
Vyvinuli sme architektúru slúžiaci na koordináciu, ktorá umožňuje prevádzku a koordinovanie našich kanálov údajov. Používa návrh riadený údajmi, ktorý závisí od množiny konfiguračných tabuliek. Tieto tabuľky ukladajú metaúdaje popisujúce závislosti kanálov a to, ako priraďovať zdrojové údaje cieľovej štruktúre údajov. Investícia do vývoja takejto adaptívnej architektúry sa oplatila. nie je viac potrebné pevne kódovať každý pohyb údajov.
Ukladanie údajov
Dátové jazero dokáže uložiť veľké objemy nespracovaných údajov na neskoršie využitie spolu s fázovanými transformáciami údajov.
V spoločnosti Microsoft používame ADLS Gen2 ako náš jediný pravdivý zdroj. Ukladá nespracované údaje spolu s fázovanými údajmi a údajmi pripravenými na produkciu. Poskytuje vysoko škálovateľné a cenovo efektívne riešenie dátového jazera na analýzu veľkého objemu údajov. Kombináciou vysoko výkonného systému súborov s masívnym škálovaním poskytuje optimalizáciu pre dátovú analýzu a skrýchľuje čas na prehľad.
ADLS Gen2 poskytuje to najlepšie z oboch sfér – úložisko BLOB a vysokovýkonný priestor názvov pre systém súborov, ktorý konfigurujeme prostredníctvom diferencovaných povolení na prístup.
Spresnené údaje sa potom uložia do relačnej databázy, aby sa poskytovalo vysoko výkonné a vysoko škálovateľné úložisko údajov pre podnikové modely so zabezpečením, riadením a možnosťou spravovania. Trhy údajov s údajmi špecifických osôb sú uložené v službe Azure Synapse Analytics a načítavajú sa prostredníctvom dotazov služby Azure Databricks alebo Polybase T-SQL.
Spotreba údajov
Na úrovni tvorby zostáv podnikové služby spotrebúvajú podnikové údaje zo skladu údajov. Takisto majú priamy prístup k údajom v dátovom jazere na ad hoc analýzy alebo úlohy dátovej vedy.
Diferencované povolenia sa vynucujú v rámci všetkých vrstiev – v dátovom jazere, podnikových modeloch a sémantických modeloch BI. Povolenia zaisťujú, že spotrebitelia údajov vidia len tie údaje, ku ktorým majú práva na prístup.
V spoločnosti Microsoft používame zostavy a tabule služby Power BI a stránkované zostavy služby Power BI. Časť tvorby zostáv a ad hoc analýz sa vykonáva v Exceli – najmä pri finančnom vykazovaní.
Publikujete slovníky údajov, ktoré poskytujú referenčné informácie o našich dátových modeloch. Sú k dispozícii pre našich používateľov, aby mali možnosť zisťovať informácie o našej platforme BI. Slovníky dokumentujú návrhy modelov, poskytujú popisy o entitách, formátoch, štruktúre, pôvode údajov, vzťahoch a výpočtoch. Na to, aby boli naše zdroje údajov jednoducho vyhľadateľné a zrozumiteľné, používame službu Azure Data Catalog .
Zvyčajne sa vzorce spotreby údajov líšia na základe rolí:
- Dátoví analytici sa pripájajú priamo k základným sémantickým modelom BI. Keď základné sémantické modely BI obsahujú všetky údaje a logiku, ktorú potrebujú, používajú dynamické pripojenia, pomocou nich vytvárajú zostavy a tabule služby Power BI. V prípade potreby rozšírenia modelov o údaje oddelení vytvárajú zložené modely služby Power BI. V prípade potreby zostáv využívaných pomocou hárkov použijú Excel a vytvoria zostavy založené na základných sémantických modeloch BI alebo sémantických modeloch BI na základe oddelení.
- Vývojári v oblasti BI a autori prevádzkových zostáv sa pripájajú priamo k podnikovým modelom. Pomocou Power BI Desktop vytvárajú analytické zostavy s dynamickým pripojením. Takisto môžu vytvárať prevádzkové zostavy BI ako stránkované zostavy služby Power BI, písať natívne dotazy SQL na prístup k údajom z podnikových modelov Azure Synapse Analytics pomocou T-SQL alebo sémantických modelov Power BI pomocou DAX alebo MDX.
- Dátoví vedci sa pripájajú priamo k údajom v dátovom jazere. Používajú poznámkové bloky Azure Databricks a Python na vývoj modelov strojového učenia, ktoré sú často experimentálne a vyžadujú špeciálne zručnosti na produkčné použitie.
Súvisiaci obsah
Ďalšie informácie o tomto článku nájdete v nasledujúcich zdrojoch:
- Plán prijatia tkaniny: Centrum excelentnosti
- Podnikové funkcie BI v Azure so službou Azure Synapse Analytics
- Máte nejaké otázky? Skúste sa spýtať Komunita Power BI
- Návrhy? Prispejte nápadmi na zlepšenie služby Power BI
Profesionálne služby
Certifikovaní partneri služby Power BI sú vám k dispozícii, aby pomohli vašej organizácii úspešne nastaviť CE. Môžu vám poskytnúť nákladovo efektívnu odbornú prípravu alebo audit údajov. Ak chcete zapojiť partnera služby Power BI, navštívte portál partnerov služby Power BI.
Môžete sa tiež spojiť so skúsenými konzultačnými partnermi. Môžu vám pomôcť posúdiť, vyhodnotiť alebo implementovať službu Power BI.