Implementácia architektúry medallion lakehouse v službe Microsoft Fabric
Tento článok prináša architektúru jazera medailí a popisuje, ako môžete implementovať domov lakehouse v službe Microsoft Fabric. Je zameraná na viacero cieľov:
- Dátoví inžinieri: Technickí zamestnanci, ktorí navrhujú, vytvárajú a udržiavajú infraštruktúry a systémy, ktoré umožňujú ich organizácii zhromažďovať, ukladať, spracovávať a analyzovať veľké objemy údajov.
- Centrum excelentnosti, IT a tím BI: Tímy zodpovedné za dohľad nad analýzou v celej organizácii.
- Správcovia tkaniny: správcovia, ktorí sú zodpovední za dohľad nad službou Fabric v organizácii.
Architektúra jazera medailónu, bežne označovaná ako architektúra medailónu, je návrhový vzor, ktorý organizácie používajú na logické usporiadanie údajov do jazera. Ide o odporúčaný prístup k návrhu služby Fabric.
Architektúra medailónov pozostáva z troch odlišných vrstiev – alebo zón. Každá vrstva označuje kvalitu údajov uložených v úzovni lakehouse s vyššími úrovňami, ktoré predstavujú vyššiu kvalitu. Tento viacvrstvový prístup vám pomáha vytvoriť jediný pravdivý zdroj podnikových údajových produktov.
Dôležité je, že architektúra medailónov zaručuje množinu vlastností atomy, konzistencie, izolácie a trvanlivosti (ACID), keď údaje prechádzajú vrstvami. Od nespracovaných údajov pripravuje rad overení a transformácií údaje, ktoré sú optimalizované pre efektívnu analýzu. K dispozícii sú tri štádiá medailí: bronz (nespracované), striebro (overené) a zlato (obohatené).
Ďalšie informácie nájdete v téme Čo je architektúra medallion lakehouse?.
OneLake a lakehouse v Fabric
Základom moderného skladu údajov je dátové jazero. Microsoft OneLake, čo je jediné zjednotené a logické dátové jazero pre celú organizáciu. Automaticky sa poskytuje s každým nájomníkom služby Fabric a je navrhnutý tak, aby bol jediným miestom pre všetky vaše analytické údaje.
Službu OneLake môžete použiť na:
- Odstráňte silá a znížte spravovanie úsilia. Všetky údaje organizácie sú uložené, spravované a zabezpečené v rámci jedného zdroja dátového jazera. Keďže služba OneLake je zriadená v nájomníkovi služby Fabric, už nie sú k dispozícii žiadne ďalšie zdroje na poskytovanie alebo správu.
- Znížte premiestňovanie údajov a duplicitu. Cieľom OneLake je uložiť iba jednu kópiu údajov. Menej kópií údajov vedie k menšiemu počtu procesov premiestňovania údajov, čo vedie k ziskovosti a zníženiu zložitosti. V prípade potreby môžete vytvoriť odkaz na údaje uložené na iných miestach a nemusíte ich skopírovať do služby OneLake.
- Používajte s viacerými analytickými motormi. Údaje v službe OneLake sa ukladajú v otvorenom formáte. Týmto spôsobom môžu byť údaje dotazované rôznymi analytickými nástrojmi vrátane služieb Analysis Services (používaných službou Power BI), T-SQL a Apache Spark. Iné aplikácie, ktoré nepoužívajú štruktúru Fabric, môžu tiež používať rozhrania API a súpravy SDK na prístup k službe OneLake .
Ďalšie informácie nájdete v téme OneLake, OneDrive pre údaje.
Na ukladanie údajov v službe OneLake vytvoríte lakehouse v službe Fabric. Lakehouse je platforma architektúry údajov na ukladanie, spravovanie a analýzu štruktúrovaných a neštruktúrovaných údajov na jednom mieste. Dokáže jednoducho prispôsobiť veľké objemy údajov všetkých typov a veľkostí súborov a keďže sú uložené na jednom mieste, jednoducho sa zdieľajú a opätovne používajú v rámci organizácie.
Každý súbor lakehouse má vstavaný koncový bod analýzy SQL, ktorý odomkne funkcie skladu údajov bez nutnosti presúvania údajov. To znamená, že môžete dotazovať svoje údaje v úzovni lakehouse pomocou dotazov SQL a bez akéhokoľvek špeciálneho nastavenia.
Ďalšie informácie nájdete v téme Čo je lakehouse v službe Microsoft Fabric?.
Tabuľky a súbory
Pri vytváraní služby Lakehouse v službe Fabric sa automaticky poskytujú dve umiestnenia fyzického úložiska pre tabuľky a súbory.
- Tabuľky sú spravovanou oblasťou na hosťovanie tabuliek všetkých formátov v Apache Spark (CSV, Parquet alebo Delta). Všetky tabuľky, či už automaticky alebo explicitne vytvorené, sú rozpoznané ako tabuľky v úzovni lakehouse. Všetky tabuľky Delta, ktoré sú údajovými súbormi parquet s denníkom transakcií založeným na súbore, sú tiež rozpoznané ako tabuľky.
- Súbory sú nespravovanou oblasťou na ukladanie údajov v ľubovoľnom formáte súboru. Všetky súbory Delta uložené v tejto oblasti sa automaticky nerozpoznajú ako tabuľky. Ak chcete vytvoriť tabuľku cez priečinok Delta Lake v nespravovaných oblastiach, musíte výslovne vytvoriť odkaz alebo externú tabuľku s umiestnením, ktoré odkazuje na nespravovaný priečinok obsahujúci súbory Delta Lake v Apache Spark.
Hlavným rozdielom medzi spravovanú oblasť (tabuľky) a nespravovanú oblasť (súbory) je automatický proces zisťovania tabuľky a registrácie. Tento proces sa spustí nad ľubovoľným priečinkom vytvoreným iba v spravovanej oblasti, ale nie v nespravovaných oblastiach.
V službe Microsoft Fabric poskytuje prieskumník Lakehouse zjednotené grafické znázornenie celej služby Lakehouse, aby používatelia mohli prechádzať, pristupovať a aktualizovať svoje údaje.
Ďalšie informácie o automatickom vyhľadávaní tabuliek nájdete v téme Automatické vyhľadávanie a registrácia tabuliek.
Úložisko Delta Lake
Delta Lake je optimalizovaná vrstva úložiska, ktorá poskytuje základ na ukladanie údajov a tabuliek. Podporuje transakcie ACID pre vyťaženie veľkého objemu údajov, a preto je to predvolený formát úložiska v úložisku Fabric lakehouse.
Dôležité je, že Delta Lake poskytuje spoľahlivosť, zabezpečenie a výkon v lakehouse pre streamovanie aj dávkové operácie. Interne ukladá údaje vo formáte súboru Parquet, ale tiež udržiava denníky a štatistiky transakcií, ktoré poskytujú funkcie a zlepšenie výkonu v štandardnom formáte Parquet.
Formát Delta Lake cez všeobecné formáty súborov prináša nasledujúce hlavné výhody.
- Podpora vlastností ACID, a najmä trvácnosť, aby sa zabránilo poškodeniu údajov.
- Rýchlejšie dotazy na čítanie.
- Vyššia aktuálnosť údajov.
- Podpora dávkových aj streamovaných vyťažení.
- Podpora pre vrátenie údajov pomocou cestovania času do Delta Lake.
- Vylepšenie dodržiavania súladu s predpismi a audit pomocou histórie tabuľky Delta Lake.
Fabric štandardizuje formát súboru úložiska v službe Delta Lake a každý nástroj na vyťaženie v službe Fabric predvolene vytvorí tabuľky Delta pri písaní údajov do novej tabuľky. Ďalšie informácie nájdete v téme Tabuľky Lakehouse a Delta Lake.
Architektúra medailí v službe Fabric
Cieľom architektúry medailónu je prírastkovo a postupne zlepšiť štruktúru a kvalitu údajov počas toho, ako prechádzajú každou fázou.
Architektúra medailónu sa skladá z troch odlišných vrstiev (alebo zón).
- Bronz: Táto prvá vrstva, známa aj ako nespracová, ukladá zdrojové údaje v pôvodnom formáte. Údaje v tejto vrstve sú zvyčajne len na pripojenie a nemenné.
- Striebro: Táto vrstva, známa aj ako obohatená zóna, ukladá údaje pochádzajúce z bronzovej vrstvy. Nespracované údaje boli vyčistené a štandardizované a teraz sú štruktúrované ako tabuľky (riadky a stĺpce). Tiež môže byť integrovaná s inými údajmi, aby poskytovala podnikové zobrazenie všetkých obchodných entít, akými sú zákazník, produkt a iné.
- Zlato: Táto finálna vrstva, známa aj ako spravovaná zóna, ukladá údaje pochádzajúce zo striebornej vrstvy. Údaje sa upresnia tak, aby vyhovovali špecifickým požiadavkám na obchod a analýzu v nadväzujúcich podnikoch. Tabuľky zvyčajne zodpovedajú návrhu hviezdicovej schémy, čo podporuje vývoj dátových modelov, ktoré sú optimalizované z hľadiska výkonu a použiteľnosti.
Dôležité
Vzhľadom k tomu, Fabric lakehouse predstavuje jednu zónu, vytvoríte jeden lakehouse pre každú z troch zón.
V typickej implementácii architektúry medailónu v službe Fabric bronzová zóna ukladá údaje v rovnakom formáte ako zdroj údajov. Keď je zdroj údajov relačnou databázou, tabuľky Delta sú dobrou voľbou. Strieborné a zlaté zóny obsahujú tabuľky Delta.
Prepitné
Ak sa chcete naučiť vytvárať jazero, prepracujte sa v scenári lakehouse od konca až po koniec .
Fabric lakehouse sprievodný materiál
V tejto časti nájdete sprievodný materiál týkajúci sa implementácie vášho jazera v službe Fabric pomocou architektúry medailí.
Model nasadenia
Ak chcete implementovať architektúru medailónov v službe Fabric, môžete použiť buď lakehouses (jeden pre každú zónu), sklad údajov alebo kombináciu oboch. Vaše rozhodnutie by sa malo zakladať na vašich preferenciách a odborných znalostiach tímu. Majte na pamäti, že fabric poskytuje flexibilitu: môžete použiť rôzne analytické nástroje, ktoré pracujú na jednej kópii údajov v službe OneLake.
Tu sú dva vzory, ktoré je potrebné vziať do úvahy.
- Vzor 1: Vytvoriť každú zónu ako lakehouse. V tomto prípade podnikoví používatelia získavajú prístup k údajom pomocou koncového bodu analýzy SQL.
- Vzor 2: Vytvorte bronzové a strieborné zóny ako domovy jazier a zlatú zónu ako sklad údajov. V tomto prípade podnikoví používatelia získavajú prístup k údajom pomocou koncového bodu skladu údajov.
Aj keď môžete vytvoriť všetky jazerá v jednom pracovnom priestore služby Fabric, odporúčame, aby ste vytvorili každý domov jazera vo vlastnom samostatnom pracovnom priestore služby Fabric. Tento prístup vám poskytuje väčšiu kontrolu a lepšiu správu na úrovni pásma.
Pre bronzovú zónu odporúčame uložiť údaje v pôvodnom formáte alebo použiť Parquet alebo Delta Lake. Vždy, keď je to možné, uchovávajte údaje v pôvodnom formáte. Ak zdrojové údaje pochádzajú z OneLake, Azure Data Lake Store Gen2 (ADLS Gen2), Amazon S3 alebo Google, namiesto skopírovania údajov v tejto oblasti vytvorte odkaz v bronzovej zóne.
Pre zóny striebra a zlata odporúčame používať tabuľky Delta z dôvodu ďalších funkcií a vylepšení výkonu, ktoré poskytujú. Fabric sa štandardizuje vo formáte Delta Lake a predvolene každý nástroj v službe Fabric zapíše údaje v tomto formáte. Okrem toho tieto motory využívajú optimalizáciu času zápisu V-Order pre formát súboru Parquet. Táto optimalizácia umožňuje veľmi rýchle čítanie výpočtovými zariadeniami služby Fabric, ako sú napríklad Power BI, SQL, Apache Spark a ďalšie. Ďalšie informácie nájdete v téme Optimalizácia tabuľky Delta Lake a Objednávka V-Order.
A nakoniec, mnohé organizácie dnes čelia masívnemu rastu objemu údajov spolu s rastúcou potrebou usporiadať a spravovať tieto údaje logickým spôsobom a zároveň uľahčiť cielenejšie a efektívnejšie používanie a riadenie. To vás môže viesť k vytvoreniu a správe decentralizovanej alebo federovanej organizácie údajov s riadením.
Zvážte implementáciu architektúry údajového siete, aby ste splnili tento cieľ. Sieť údajov je architektonický vzor, ktorý sa zameriava na vytváranie údajových domén, ktoré ponúkajú údaje ako produkt.
Vytvorením údajových domén môžete v službe Fabric vytvoriť architektúru údajového siete pre vašu údajovú kombinénu. Môžete vytvoriť domény, ktoré sa priraďujú k vašim obchodným doménám, ako napríklad marketing, predaj, zásoby, ľudské zdroje a ďalšie. Architektúru medailónov potom môžete implementovať nastavením zón údajov v rámci každej domény.
Ďalšie informácie o doménach nájdete v téme Domény.
Vysvetlenie úložiska údajov tabuľky Delta
Táto časť popisuje ďalšie témy sprievodného materiálu týkajúce sa implementácie architektúry jazera medailí v službe Fabric.
Veľkosť súboru
Vo všeobecnosti platí, že platforma big data funguje lepšie, keď má malý počet veľkých súborov a nie veľký počet malých súborov. Je to spôsobené tým, že k poklesu výkonu dochádza, keď nástroj na výpočet musí spravovať mnohé operácie s metaúdajmi a súbormi. Na zlepšenie výkonu dotazov sa odporúča zamerať sa na údajové súbory s veľkosťou približne 1 GB.
Delta Lake má funkciu s názvom prediktívna optimalizácia. Prediktívna optimalizácia odstraňuje potrebu manuálne spravovať operácie údržby pre tabuľky Delta. Keď je táto funkcia povolená, Delta Lake automaticky identifikuje tabuľky, ktoré by mali prospech z operácií údržby, a potom optimalizuje svoje úložisko. To môže transparentne spojiť mnoho menších súborov do veľkých súborov, a bez akéhokoľvek vplyvu na ostatných čitateľov a spisovateľov údajov. Hoci táto funkcia by mala byť súčasťou vašej prevádzkovej excelencie a práce pri príprave údajov, aj fabric má možnosť optimalizovať tieto údajové súbory počas zapisovania údajov. Ďalšie informácie nájdete v téme Prediktívna optimalizácia pre Delta Lake.
Historické uchovávanie údajov
Delta Lake predvolene zachováva históriu všetkých vykonaných zmien. To znamená, že veľkosť historických metaúdajov rastie v priebehu času. Na základe obchodných požiadaviek by ste sa mali snažiť uchovávať historické údaje len určité obdobie, aby ste mohli znížiť náklady na ukladanie. Zvážte zachovanie historických údajov len za posledný mesiac alebo iné vhodné časové obdobie.
Staršie historické údaje z tabuľky Delta môžete odstrániť pomocou príkazu VACUUM. Uvedomte si však, že v predvolenom nastavení nemôžete odstrániť historické údaje za posledných sedem dní – to by zachová konzistenciu v údajoch. Predvolený počet dní riadi vlastnosť delta.deletedFileRetentionDuration = "interval <interval>"
tabuľky . Určuje časové obdobie, pred tým, ako sa súbor môže považovať za kandidáta na podtlakovú operáciu, sa musí súbor odstrániť.
Oblasti tabuliek
Pri ukladaní údajov v každej oblasti sa odporúča použiť štruktúru rozdelených priečinkov, kdekoľvek je to možné. Táto technika pomáha zlepšiť možnosti spravovania údajov a výkon dotazov. Vo všeobecnosti majú rozdelenie údajov v štruktúre priečinkov za následok rýchlejšie vyhľadávanie špecifických položiek údajov vďaka prerezávaniu/odstráneniu oblasti.
Zvyčajne pri prijatí nových údajov pripojíte údaje do cieľovej tabuľky. V niektorých prípadoch však môžete údaje zlúčiť, pretože potrebujete aktualizovať existujúce údaje v rovnakom čase. V takom prípade môžete vykonať operáciu upsert pomocou príkazu MERGE. Keď je cieľová tabuľka rozdelená, nezabudnite na zrýchlenie operácie použiť filter oblasti. Týmto spôsobom môže nástroj odstrániť oblasti, ktoré nevyžadujú aktualizáciu.
Prístup k údajom
Nakoniec by ste mali naplánovať a kontrolovať, kto potrebuje prístup ku konkrétnym údajom v úzovni Lakehouse. Takisto by ste mali porozumieť rôznym vzorcom transakcií, ktoré budú používať pri prístupe k týmto údajom. Potom môžete definovať správnu schému rozdelenia tabuliek a zoradenie údajov s indexmi poradia Delta Lake Z.
Súvisiaci obsah
Ďalšie informácie o implementácii služby Fabric lakehouse nájdete v nasledujúcich zdrojoch.
- Kurz: Scenár od spoločnosti Lakehouse od konca
- Tabuľky Lakehouse a Delta Lake
- Príručka pre rozhodnutia služby Microsoft Fabric: výber úložiska údajov
- Optimalizácia tabuľky Delta Lake a objednávka V-Order
- Potreba optimalizácie písať na Apache Spark
- Máte nejaké otázky? Skúste sa spýtať v komunite služby Fabric.
- Návrhy? Prispejte nápadmi na zlepšenie štruktúry.