Tato ukázková úloha znázorňuje řešení zeleného pole pro vytvoření škálovatelné datové platformy pomocí Microsoft Fabric a paradigmatu návrhu lakehouse. Prostředky infrastruktury jsou platforma, která integruje ukládání, zpracování a analýzy dat. Greenfield lakehouse poskytuje čistý začátek návrh efektivního ekosystému dat, který je odolný proti budoucnosti.
Stáhněte si soubor aplikace Visio s touto architekturou.
Tento návrh odráží architekturu Lambda, která odděluje zpracování dat do dvou vrstev:
- Vrstva dávkového zpracování s velkým objemem, která se pravidelně zpracovává pro historickou analýzu
- Vrstva zpracování datových proudů s nízkou latencí a vysokou propustností pro analýzu v reálném čase
Cesta zpracování datových proudů ingestuje a zpracovává data téměř v reálném čase, což je ideální pro řídicí panely a detekci anomálií. Cesta dávkového zpracování zpracovává úplnou datovou sadu a zajišťuje konzistenci dat a umožňuje složitou historickou analýzu. Tento dvoustupňový přístup nabízí přehledy v reálném čase při zachování spolehlivého záznamu pro pozdější průzkum.
Datové sklady, které se spoléhají na relační sémantiku SQL, jsou konvenčním přístupem k analýze historických dat. Tento model se však v průběhu času vyvinul a lakehouse jsou aktuálním oborem standardu pro dávkové analýzy dat. Lakehouse je postaven na opensourcových formátech souborů a na rozdíl od tradičních datových skladů se stará o všechny typy dat: strukturované, částečně strukturované a nestrukturované. Výpočetní vrstva v jezeře je obvykle postavená na architektuře Apache Spark, což je preferovaný modul pro zpracování velkých objemů dat kvůli své distribuované výpočetní schopnosti a vysokému výkonu. Fabric nabízí nativní prostředí lakehouse založené na opensourcovém formátu souborů Delta Lake a spravovaném modulu runtime Spark.
Implementace lakehouse obvykle používá architekturu medailonu. V této architektuře obsahuje bronzová vrstva nezpracovaná data, stříbrná vrstva obsahuje ověřená a odstraněná data a zlatá vrstva obsahuje vysoce zpřesněná data, která jsou vhodná pro podporu obchodních případů použití. Tento přístup funguje ve všech organizacích a odvětvích. I když se jedná o obecný přístup, můžete ho přizpůsobit svým požadavkům. Tato architektura ukazuje, jak vytvořit lakehouse pomocí nativních komponent infrastruktury.
(Viz krok 1 v diagramu.)
Funkce Azure Data Factory v Prostředcích infrastruktury poskytuje možnosti služby Azure Data Factory, což je široce používaná služba pro integraci dat. I když služba Data Factory poskytuje hlavně možnosti orchestrace prostřednictvím kanálů, tato funkce v Prostředcích infrastruktury poskytuje kanály i toky dat.
- Datové kanály umožňují používat předefinované funkce orchestrace dat k vytváření flexibilních datových pracovních postupů, které vyhovují potřebám vašeho podniku.
- Toky dat umožňují v návrháři toků dat používat více než 300 transformací. Tyto transformace můžete použít k transformaci dat pomocí grafického rozhraní, které je podobné rozhraní v Power Query. Mezi tyto transformace patří inteligentní transformace dat založené na umělé inteligenci. Toky dat můžou také zapisovat data do nativních úložišť dat v Prostředcích infrastruktury, jako jsou databáze lakehouse, warehouse, Azure SQL a Kusto.
V závislosti na vašich požadavcích můžete použít buď nebo obě tyto funkce, a vytvořit tak bohatou architekturu pro příjem dat řízená metadaty. Data z různých zdrojových systémů můžete připojit podle definovaného plánu nebo pomocí triggerů událostí.
(Viz krok 2 v diagramu.)
Existují dva přístupy k přípravě a transformaci dat. Pokud dáváte přednost prostředí s kódem, můžete použít poznámkové bloky Sparku. Pokud dáváte přednost prostředí s nízkým kódem nebo bez kódu, můžete použít toky dat.
Poznámkové bloky infrastruktury jsou důležitým nástrojem pro vývoj úloh Apache Sparku. Poskytují webovou interaktivní plochu, kterou datoví inženýři používají k psaní kódu. Poskytují také bohaté vizualizace a umožňují používat text Markdownu. Datoví inženýři zapisuje kód pro příjem dat, přípravu dat a transformaci dat. Datoví vědci používají poznámkové bloky k vytváření řešení strojového učení. Používají je například k vytváření experimentů a modelů a ke sledování a nasazování modelů.
Každý pracovní prostor v prostředcích infrastruktury má počáteční fond Sparku, který se používá pro výchozí úlohy Sparku. S počátečními fondy můžete očekávat rychlé inicializace relace Apache Sparku, obvykle do 5 až 10 sekund bez ručního nastavení. Získáte také flexibilitu při přizpůsobení fondů Apache Sparku podle vašich požadavků na přípravu dat. Uzly, automatické škálování a dynamicky přidělovat exekutory můžete na základě vašich požadavků na úlohu Sparku nastavit velikost. Pro přizpůsobení modulu runtime Sparku můžete použít prostředí. V prostředí můžete nakonfigurovat vlastnosti výpočetních prostředků, vybrat různé moduly runtime a nastavit závislosti balíčků knihoven na základě vašich požadavků na úlohy.
Toky dat umožňují extrahovat data z různých zdrojů, transformovat je pomocí široké škály operací a volitelně je načíst do cíle. Datoví inženýři tradičně tráví významný čas extrakcí, transformací a načítáním dat do spotřebního formátu pro podřízenou analýzu. Tok dat Gen2 poskytuje snadný a opakovaně použitelný způsob, jak provádět úlohy extrakce, transformace, načítání (ETL) pomocí vizuálních upozornění v Power Query Online. Tok dat zachovává všechny kroky transformace. Pokud chcete po transformaci provést jiné úlohy nebo načíst data do jiného cíle, vytvořte datový kanál a přidejte aktivitu Toku dat Gen2 do orchestrace kanálu.
Zpracování dat v reálném čase je nezbytné pro firmy, které chtějí zůstat agilní, rychle rozhodovat a využívat okamžité přehledy ke zlepšení provozu a zkušeností zákazníků. V prostředcích infrastruktury tuto funkci poskytuje služba Analýzy v reálném čase. Skládá se z několika funkcí infrastruktury, které jsou spojeny a přístupné prostřednictvím centra v reálném čase. Centrum v reálném čase poskytuje jediné místo pro streamování dat v celé organizaci.
Inteligentní funkce v reálném čase v prostředcích infrastruktury umožňují analýzu a vizualizaci dat pro scénáře řízené událostmi, streamovaná data a datové protokoly. Spojuje data založená na čase z různých zdrojů pomocí katalogu konektorů bez kódu a poskytuje ucelené řešení pro příjem dat, transformaci, úložiště, analýzu, vizualizaci, sledování, AI a akce v reálném čase. I když název služby používá frázi "V reálném čase", vaše data nemusí streamovat s vysokými rychlostmi a objemy. Inteligentní funkce v reálném čase poskytuje řešení řízená událostmi místo řešení řízená podle plánu.
(Viz krok 3 v diagramu.)
Streamy událostí jsou funkce infrastruktury, která umožňuje metodu bez kódu pro příjem událostí v reálném čase z různých zdrojů a jejich odesílání do různých cílů. Umožňuje filtrování, transformaci, agregaci a směrování na základě obsahu. Můžete ho také použít k vytvoření nových datových proudů z existujících datových proudů a jejich sdílení v celé organizaci pomocí centra v reálném čase. Eventstreams podporuje více zdrojů dat a cílů dat. K externím zdrojům, jako jsou clustery Apache Kafka, kanály Change Data Capture, zdroje streamování AWS (Kinesis) a Google (GCP Pub/Sub), můžete použít širokou škálu konektorů.
Vytvoříte stream událostí, přidáte do datového proudu zdroje dat událostí, volitelně přidáte transformace pro transformaci dat události a pak data směrujete do podporovaných cílů. Fabric lakehouse je jedním z podporovaných cílů, takže před jejich ingestováním do jezera můžete transformovat události v reálném čase. Události v reálném čase se převedou do formátu Delta Lake a pak se uloží do určených tabulek lakehouse. Tento model umožňuje scénáře datových skladů a historickou analýzu dat s rychlým přesunem.
(Viz krok 4 v diagramu.)
Při použití inteligentních funkcí v reálném čase v prostředcích infrastruktury v závislosti na vašich případech použití existují dva typické způsoby streamování dat: reflexní položky a události.
Reflex je položka fabric, která umožňuje reagovat na výskyt podmínky dat, jak se stane. Tato reakce může být jednoduchá zpráva s upozorněním prostřednictvím e-mailu nebo Microsoft Teams nebo může zahrnovat vyvolání vlastní akce aktivací toku Power Automate. Můžete také aktivovat libovolnou položku fabric z reflexů. Řada případů použití pozorovatelnosti je podporována reflexy, z nichž jedna reaguje na streamovaná data při příchodu do eventstreamů.
Eventhouse je kolekce jedné nebo více databází dotazovací jazyk Kusto (KQL). Databáze KQL jsou navrženy pro časově založené události streamování strukturovaných, částečně strukturovaných a nestrukturovaných dat. Data se automaticky indexují a rozdělují podle času příjmu dat, který poskytuje rychlé a složité analytické možnosti dotazování, a to i v případě datových proudů. Data uložená v eventhousech je možné zpřístupnit ve OneLake pro použití jinými procesy Fabric. Tato data můžete dotazovat pomocí různých možností kódu, nízkého kódu nebo bez kódu v prostředcích infrastruktury, včetně nativních KQL a T-SQL v sadě dotazů KQL.
Řídicí panely v reálném čase jsou navržené tak, aby poskytovaly okamžitý přehled z dat streamovaných do vašich eventhouse. Na řídicí panel můžete přidat různé typy vizuálů, jako jsou grafy a grafy, a přizpůsobit je tak, aby vyhovovaly vašim potřebám. Řídicí panely v reálném čase slouží ke konkrétnímu účelu rychlé identifikace trendů a anomálií ve vysoce rychlých datech, která přicházejí do centra událostí. Liší se od řídicích panelů Power BI, které jsou vhodné pro úlohy generování sestav podnikového BI.
(Viz krok 5 v diagramu.)
Pro využívání dat z Fabric Lakehouses a eventhouses jsou k dispozici různé možnosti s nízkým kódem nebo pro kód.
Koncový bod analýzy SQL se automaticky vygeneruje pro každý lakehouse v Prostředcích infrastruktury. Koncový bod analýzy SQL je jen pro čtení. Pokud chcete upravit data, musíte přepnout do režimu Lakehouse a použít Spark. Koncový bod analýzy SQL můžete použít přímo na portálu Fabric k dotazování dat tak, že přepnete z režimu Lakehouse na režim SQL lakehouse. Alternativně můžete k připojení použít SQL připojovací řetězec lakehouse pomocí klientských nástrojů, jako jsou Power BI, Excel a SQL Server Management Studio. Tato možnost je vhodná pro datové a obchodní analytiky v datovém týmu.
Poznámkové bloky představují oblíbený způsob interakce s daty lakehouse. Prostředky infrastruktury poskytují webovou interaktivní plochu, kterou můžou pracovníci s daty použít k psaní kódu. Tito pracovníci můžou používat bohaté vizualizace a text Markdownu. Datoví inženýři zapisuje kód pro příjem dat, přípravu dat a transformaci dat. Datoví vědci používají poznámkové bloky pro zkoumání dat, pro vytváření experimentů a modelů strojového učení a pro sledování a nasazování modelů. Tato možnost je vhodná pro profesionální datové inženýry a datové vědce.
Každý sémantický model jezero v Fabric obsahuje předem připravený výchozí sémantický model. Automaticky se vytvoří, když nastavíte jezerní dům a načtete do něj data. Tyto modely dědí obchodní logiku z jezera, aby bylo snazší vytvářet sestavy a řídicí panely Power BI přímo v prostředí jezera. V tabulkách lakehouse můžete také vytvářet vlastní sémantické modely založené na konkrétních obchodních požadavcích. Při vytváření sestav Power BI v jezeře můžete použít režim Direct Lake, který nevyžaduje, abyste data naimportovat samostatně. Tento režim umožňuje získat výkon sestav v paměti bez přesunu dat z jezera.
Prostředky infrastruktury poskytují bohatou plochu rozhraní API napříč svými položkami. OneLake poskytuje otevřený přístup ke všem položkám infrastruktury prostřednictvím rozhraní API a sad SDK služby Azure Data Lake Storage. Ke svým datům v OneLake můžete přistupovat prostřednictvím libovolného rozhraní API, sady SDK nebo nástroje, který je kompatibilní se službou Data Lake Storage, a to jenom pomocí identifikátoru URI OneLake. Data můžete nahrát do jezera pomocí Průzkumník služby Azure Storage nebo číst rozdílovou tabulku prostřednictvím zástupce z Azure Databricks. OneLake také podporuje ovladač systému souborů AZURE Blob (ABFS) pro zajištění větší kompatibility se službou Data Lake Storage a Azure Blob Storage. Pokud chcete využívat streamovaná data v podřízených aplikacích, můžete streamovat data událostí do vlastního koncového bodu rozhraní API. Výstup streamování z prostředků infrastruktury pak můžete využívat pomocí služby Azure Event Hubs nebo protokolu AMQP nebo Kafka.
Power Automate je platforma aplikací s nízkým kódem, kterou můžete použít k automatizaci opakovaných úloh a také manipulaci s daty. Reflexní položka v prostředcích infrastruktury podporuje toky Power Automate jako cíl. Tato integrace otevírá mnoho případů použití a umožňuje aktivovat podřízené akce pomocí široké škály konektorů pro systémy Microsoftu i jiných společností než Microsoft.
V tomto řešení se používají následující komponenty.
Prostředky infrastruktury: Ucelená cloudová analytická platforma určená pro podniky. Poskytuje jednotné prostředí pro různé úlohy dat, jako je příjem dat, transformace, analýza a vizualizace.
OneLake: Centrální centrum pro všechna vaše data v Prostředcích infrastruktury. Je navržená jako otevřené datové jezero, což znamená, že může ukládat data v nativním formátu bez ohledu na strukturu.
Data Factory: Cloudová služba ETL a orchestrace pro automatizované přesuny a transformace dat. Umožňuje automatizovat přesun a transformaci dat ve velkém měřítku napříč různými zdroji dat.
Příprava dat: Nástroje, které umožňují shromažďování, ukládání, zpracování a analýzu velkých objemů dat.
Datová Věda: Nástroje, které umožňují kompletní pracovní postupy datových věd pro rozšiřování dat a získání obchodních přehledů.
Inteligentní funkce v reálném čase: Služba, která poskytuje možnosti příjmu a zpracování datových proudů. Umožňuje získat přehledy z neustále proudících dat, abyste umožnili rychlejší rozhodování, které je založeno na trendech a anomáliích v reálném čase.
Copilot: Nástroj, který můžete použít k analýze dat, generování přehledů a vytváření vizualizací a sestav v prostředcích infrastruktury a Power BI pomocí přirozeného jazyka.
Power BI: Nástroj business intelligence pro vytváření interaktivních řídicích panelů a sestav pro vizualizaci dat a získávání přehledů.
Prostředky infrastruktury nabízejí robustní sadu nástrojů, ale v závislosti na vašich konkrétních potřebách můžete těžit z vylepšených funkcí poskytovaných alternativními službami v ekosystému Azure.
Azure Databricks může nahradit nebo doplnit nativní funkce přípravy dat infrastruktury. Azure Databricks nabízí alternativu pro rozsáhlé zpracování dat tím, že poskytuje cloudové prostředí Apache Spark. Azure Databricks také poskytuje společné zásady správného řízení v rámci celého datového majetku a možností, které umožňují klíčové případy použití, jako jsou datové vědy, datové inženýrství, strojové učení, AI a analýzy založené na SQL.
Azure Machine Learning může nahradit nebo doplnit nativní nástroje infrastruktury Datová Věda. Strojové učení přesahuje možnosti experimentování a správy modelů v prostředcích infrastruktury přidáním možností, které umožňují hostovat modely pro případy použití online odvozování, monitorovat modely pro posun a vytvářet vlastní aplikace Generative AI.
Tato architektura se vztahuje na následující scénáře:
- Organizace, které začínají nové bez starších systémových omezení.
- Organizace, které očekávají objemy dat mezi 0,5 TB a 1,5 TB.
- Organizace, které dávají přednost jednoduchému a zjednodušenému modelu, který vyrovnává náklady, složitost a aspekty výkonu.
- Organizace, které potřebují jednoduchou nákladově efektivní a vysoce výkonnou datovou platformu, která řeší požadavky na vytváření sestav, analýzy a strojové učení.
- Organizace, které chtějí integrovat data z více zdrojů pro jednotné zobrazení
Toto řešení se nedoporučuje pro:
- Týmy s SQL nebo relační databází na pozadí, které mají omezené dovednosti v Apache Sparku.
- Organizace, které migrují ze starší verze systému nebo datového skladu na moderní platformu
Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.
Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro spolehlivost.
Prostředky infrastruktury automaticky replikují mezi zónami dostupnosti bez nutnosti jakékoli konfigurace. Například během výpadku v rámci zóny se k obnovení zóny nevyžaduje žádná akce. V podporovaných oblastech může Prostředky infrastruktury automaticky opravovat a znovu vyrovnává, aby využívaly výhod zón, které jsou v pořádku.
Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v kontrolním seznamu pro kontrolu návrhu zabezpečení.
Prostředky infrastruktury můžete použít ke správě, řízení a auditování nastavení zabezpečení podle měnících se potřeb a požadavků. Mezi klíčová doporučení zabezpečení pro používání prostředků infrastruktury patří:
Ověřování. Nakonfigurujte jednotné přihlašování (SSO) v Microsoft Entra ID tak, aby poskytovalo přístup z různých zařízení a umístění.
Řízení přístupu na základě role (RBAC). Implementujte řízení přístupu na základě pracovního prostoru, které umožňuje spravovat, kdo má přístup ke konkrétním datovým sadám a pracovat s nimi.
Zabezpečení sítě. Pokud se připojujete k datům nebo službám v rámci sítě nebo mimo síť, použijte ovládací prvky zabezpečení příchozí a odchozí sítě Fabric. Mezi klíčové funkce patří podmíněný přístup, privátní propojení, důvěryhodný přístup k pracovnímu prostoru a spravované privátní koncové body.
Protokoly auditu Pomocí podrobných protokolů auditu, které poskytuje Prostředky infrastruktury, můžete sledovat aktivity uživatelů a zajistit odpovědnost napříč platformou.
Další informace naleznete v tématu Zabezpečení v Microsoft Fabric.
Optimalizacenákladůch Další informace naleznete v tématu Kontrolní seznam pro kontrolu návrhu proOptimalizace nákladů .
Prostředky infrastruktury nabízejí rezervace kapacity pro daný počet jednotek kapacity (CU). Rezervace kapacity vám můžou pomoct ušetřit náklady při potvrzení rezervace pro využití kapacity Fabric po dobu jednoho roku.
Pokud chcete maximalizovat využití kapacity Prostředků infrastruktury, zvažte následující doporučení:
- Rightsize F SKU. Pokud chcete určit správnou velikost kapacity, můžete zřídit zkušební kapacity nebo skladové položky F s průběžnými platbami , abyste změřili skutečnou velikost kapacity, kterou potřebujete, než si koupíte rezervovanou instanci skladové položky F. Doporučujeme provést vymezený důkaz konceptu se reprezentativní úlohou, monitorovat využití CU a následně extrapolovat tak, aby se odhadl využití CU pro produkční prostředí. Prostředky infrastruktury poskytují bezproblémové škálování. Pokud potřebujete větší kapacitu, můžete začít s konzervativní velikostí kapacity a vertikálně navýšit kapacitu.
- Monitorujte vzory využití. Pravidelně sledujte a analyzujte využití, abyste identifikovali špičky a mimo špičku. To vám může pomoct pochopit, kdy jsou vaše prostředky nejvíce využívané, abyste mohli plánovat nekritické úlohy v době mimo špičku, abyste se vyhnuli špičkám využití CU.
- Optimalizujte dotazy a úlohy. Ujistěte se, že jsou vaše dotazy a úlohy optimalizované, aby se snížilo zbytečné využití výpočetních prostředků. Optimalizujte dotazy DAX, kód Pythonu a další operace.
- Používejte shlukování a vyhlazování. Pomocí funkcí pro nárazové a vyhlazování prostředků infrastruktury můžete zpracovávat aktivity náročné na procesor bez nutnosti vyšší skladové položky. To vám může pomoct se správou nákladů při zachování výkonu. Další informace najdete v tématu Vyhodnocení a optimalizace kapacity prostředků infrastruktury.
- Nastavte upozornění a oznámení. Nakonfigurujte proaktivní upozornění, aby správci kapacity mohli monitorovat a spravovat vysoké využití výpočetních prostředků. Díky tomu můžou provádět včasná opatření, která zabrání přetečení nákladů.
- Implementace správy úloh Naplánujte úlohy spuštěné v protokolech v rozložených časech na základě dostupnosti prostředků a požadavků na systém, abyste optimalizovali využití kapacity. Další informace najdete v tématu Správa úloh.
Mějte na paměti také tyto aspekty:
- Ceny služby Data Lake Storage závisí na množství uložených dat a na tom, jak často data používáte. Ukázkové ceny zahrnují 1 TB uložených dat a další transakční předpoklady. 1 TB odkazuje na velikost datového jezera, nikoli na původní starší velikost databáze.
- Ceny prostředků infrastruktury jsou založené na ceně kapacity skladové položky Fabric F nebo na ceně Premium na uživatele. Bezserverové kapacity spotřebovávají procesor a paměť z zakoupené vyhrazené kapacity.
- Služba Event Hubs se účtuje na základě úrovně, zřízených jednotek propustnosti a přijatých příchozích přenosů dat. Příklad předpokládá jednu jednotku propustnosti na úrovni Standard přes jeden milion událostí za měsíc.
Efektivita provozu se zabývá provozními procesy, které nasazují aplikaci a udržují ji spuštěnou v produkčním prostředí. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro efektivitu provozu.
Prostředky infrastruktury poskytují mnoho komponent, které vám pomůžou se správou datové platformy. Každá z těchto komponent podporuje jedinečné operace, které můžete zobrazit v aplikaci Microsoft Fabric Capacity Metrics. Pomocí aplikace Fabric Capacity Metrics můžete monitorovat spotřebu kapacity a činit informovaná rozhodnutí o tom, jak používat prostředky kapacity.
Efektivita výkonu je schopnost vaší úlohy efektivně splňovat požadavky, které na ni mají uživatelé. Další informace najdete v kontrolním seznamu pro kontrolu návrhu týkajícího se efektivity výkonu.
Prostředky infrastruktury poskytují několik funkcí pro optimalizaci výkonu napříč jeho komponentami. Tyto nástroje a postupy vám můžou pomoct efektivně spravovat výpočetní prostředky, zabránit přetížení a činit informovaná rozhodnutí o škálování a optimalizaci úloh.
Mezi klíčové možnosti efektivity výkonu v prostředcích infrastruktury patří:
Zvýšení a vyhlazování, aby se zajistilo rychlé dokončení aktivit náročných na procesor bez nutnosti vyšší skladové položky. Naplánujte tyto aktivity kdykoliv v den.
Omezování, zpoždění nebo odmítnutí operací v případě, že kapacita udrží poptávku po procesoru nad limitem skladové položky.
Aplikace Fabric Capacity Metrics, která vizualizuje využití kapacity, optimalizuje výkon artefaktů a optimalizuje vysoce výpočetní položky. Aplikace rozlišuje mezi interaktivními operacemi (jako jsou dotazy DAX) a operacemi na pozadí (jako jsou sémantické aktualizace modelu) pro cílené optimalizace.
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autoři:
- Amit Chandra | Architekt cloudového řešení
- Nicholas Moore | Architekt cloudového řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.