Kompletní scénář Lakehouse: přehled a architektura

Microsoft Fabric je komplexní analytické řešení pro podniky, které pokrývá všechno od přesunu dat až po datové vědy, analýzy v reálném čase a business intelligence. Nabízí komplexní sadu služeb, včetně data lake, přípravy dat a integrace dat, a to vše na jednom místě. Další informace najdete v tématu Co je Microsoft Fabric?

Tento kurz vás provede kompletním scénářem od získávání dat až po spotřebu dat. Pomůže vám to vybudovat základní znalosti o prostředcích infrastruktury, včetně různých prostředí a způsobu jejich integrace, a také profesionálních a občanských vývojářských prostředí, která jsou součástí práce na této platformě. Tento kurz nemá být referenční architekturou, vyčerpávajícím seznamem funkcí a funkcemi ani doporučením konkrétních osvědčených postupů.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.

Kompletní scénář lakehouse

Organizace tradičně budují moderní datové sklady pro své potřeby transakční a strukturované analýzy dat. A data lakehouses pro potřeby analýzy velkých objemů dat (částečně nebo nestrukturované). Tyto dva systémy běžely paralelně a vytvářely sila, duplicitní data a zvýšily celkové náklady na vlastnictví.

Prostředky infrastruktury se sjednocením úložiště dat a standardizací ve formátu Delta Lake umožňují eliminovat sila, odebrat duplicity dat a výrazně snížit celkové náklady na vlastnictví.

Díky flexibilitě, kterou nabízí Prostředky infrastruktury, můžete implementovat architektury lakehouse nebo datového skladu nebo tyto dvě architektury kombinovat, abyste získali to nejlepší z obou pomocí jednoduché implementace. V tomto kurzu si vezmete příklad maloobchodní organizace a vytvoříte její lakehouse od začátku do konce. Používá architekturu medailonu , kde bronzová vrstva obsahuje nezpracovaná data, stříbrná vrstva má ověřená a odstraněná duplicitní data a zlatá vrstva má vysoce zpřesněná data. Stejný přístup můžete použít k implementaci lakehouse pro každou organizaci z libovolného odvětví.

Tento kurz vysvětluje, jak vývojář ve fiktivní společnosti Wide World Importers z maloobchodní domény provede následující kroky:

  1. Přihlaste se ke svému účtu Power BI nebo pokud ho ještě nemáte, zaregistrujte si bezplatnou zkušební verzi.

  2. Sestavte a implementujte komplexní lakehouse pro vaši organizaci:

  3. Vyčistěte prostředky odstraněním pracovního prostoru a dalších položek.

Architektura

Následující obrázek znázorňuje kompletní architekturu Lakehouse. Příslušné komponenty jsou podrobně popsány níže:

Diagram kompletní architektury lakehouse v Microsoft Fabric

  • Zdroje dat: Prostředky infrastruktury umožňují rychlé a snadné připojení k Azure Data Services a dalším cloudovým platformám a místním zdrojům dat, aby bylo možné zjednodušit příjem dat.

  • Příjem dat: Pomocí více než 200 nativních konektorů můžete rychle vytvářet přehledy pro vaši organizaci. Tyto konektory jsou integrované do kanálu Prostředků infrastruktury a využívají uživatelsky přívětivou transformaci dat přetahování pomocí toku dat. Pomocí funkce Zástupce v prostředcích infrastruktury se navíc můžete připojit ke stávajícím datům, aniž byste je museli kopírovat nebo přesouvat.

  • Transformace a ukládání: Prostředky infrastruktury standardizují formát Delta Lake. To znamená, že všechny moduly infrastruktury můžou přistupovat ke stejné datové sadě uložené ve OneLake a pracovat s nimi bez duplikování dat. Tento systém úložiště poskytuje flexibilitu při vytváření objektů Lakehouse pomocí architektury medailónu nebo datové sítě v závislosti na požadavcích vaší organizace. Můžete si vybrat mezi prostředím pro transformaci dat s minimem kódu nebo bez kódu a využít kanály, toky dat nebo poznámkové bloky nebo Spark pro prostředí založené na kódu.

  • Využití: Power BI může využívat data z Lakehouse pro vytváření sestav a vizualizaci. Každý Lakehouse má integrovaný koncový bod TDS/SQL pro snadné připojení a dotazování dat v tabulkách Lakehouse z jiných nástrojů pro vytváření sestav. Kromě toho se při vytvoření Lakehouse automaticky vygeneruje odpovídající sekundární položka s názvem Warehouse se stejným názvem jako Lakehouse. Poskytuje uživatelům funkce koncového bodu TDS/SQL.

Ukázková datová sada

V tomto kurzu se používá ukázková databáze Wide World Importers (WWI). V případě kompletního scénáře lakehouse jsme vygenerovali dostatek dat, abychom mohli prozkoumat možnosti škálování a výkonu platformy Fabric.

Wide World Importers (WWI) je velkoobchodní novinka dovozce zboží a distributor působící z oblasti San Francisco Bay. Jako velkoobchodník jsou mezi zákazníky WWI většinou společnosti, které přeprodává jednotlivcům. WwI prodává maloobchodním zákazníkům v USA včetně specializovaných obchodů, supermarketů, výpočetních obchodů, turistických atrakcí a některých jednotlivců. WWI také prodává jiným velkoobchodníkům prostřednictvím sítě agentů, kteří propagují produkty jménem druhé světové války. Další informace o profilu a provozu společnosti najdete v tématu Ukázkové databáze Wide World Importers pro Microsoft SQL.

Obecně platí, že data se do lakehouse přinesou z transakčních systémů nebo obchodních aplikací. V zájmu jednoduchosti v tomto kurzu však jako počáteční zdroj dat použijeme dimenzionální model poskytovaný WWI. Používáme ho jako zdroj k ingestování dat do lakehouse a jejich transformaci v různých fázích (bronzová, stříbrná a zlatá) architektury medailonu.

Datový model

I když dimenzionální model wwi obsahuje řadu tabulek faktů, v tomto kurzu použijeme tabulku faktů Prodej a její korelované dimenze. Následující příklad znázorňuje datový model WWI:

Diagram tabulky Fakta o prodeji a souvisejících dimenzí pro datový model tohoto kurzu

Tok dat a transformace

Jak je popsáno dříve, použijeme ukázková data z ukázkových dat wide world importers (WWI) k vytvoření tohoto komplexního lakehouse. V této implementaci jsou ukázková data uložená v účtu Úložiště dat Azure ve formátu souboru Parquet pro všechny tabulky. V reálných scénářích by však data obvykle pocházela z různých zdrojů a v různých formátech.

Následující obrázek znázorňuje transformaci zdroje, cíle a dat:

Diagram toku a transformace dat v Microsoft Fabric

  • Zdroj dat: Zdrojová data jsou ve formátu souboru Parquet a v nerozdělené struktuře. Je uložený ve složce pro každou tabulku. V tomto kurzu jsme nastavili kanál, který do lakehouse ingestuje kompletní historická nebo jednorázová data.

    Abychom si ukázali možnosti přírůstkového načítání dat, máme na konci tohoto kurzu volitelný kurz. V tomto kurzu použijeme tabulku faktů Prodej , která obsahuje jednu nadřazenou složku s historickými daty za 11 měsíců (s jednou podsložkou pro každý měsíc) a druhou složku obsahující přírůstková data za tři měsíce (jednu podsložku pro každý měsíc). Během počátečního příjmu dat se do tabulky Lakehouse ingestuje 11 měsíců dat. Když ale přírůstková data dorazí, budou obsahovat aktualizovaná data pro říjen a listopad a nová data pro prosinec. Data z října a listopadu se sloučí s existujícími daty a nová data z prosince se zapíšou do tabulky Lakehouse, jak je znázorněno na následujícím obrázku:

    Diagram znázorňující, jak lze změněná data postupně sloučit do původně ingestovaných dat v lakehouse

  • Lakehouse: V tomto kurzu vytvoříte lakehouse, ingestujete data do oddílu souborů lakehouse a pak vytvoříte tabulky delta lake v části Tabulky lakehouse. Můžete najít volitelný kurz, který se zabývá vytvářením lakehouse s architekturou medailonu a několika doporučeními.

  • Transformace: Pro přípravu a transformaci dat uvidíte dva různé přístupy. Ukážeme si použití poznámkových bloků nebo Sparku pro uživatele, kteří dávají přednost prostředí založenému na kódu, a kanály a toky dat pro uživatele, kteří dávají přednost prostředí s nízkým nebo žádným kódem.

  • Využití: Pokud chcete předvést spotřebu dat, uvidíte, jak můžete pomocí funkce DirectLake v Power BI vytvářet sestavy, řídicí panely a přímo dotazovat se na data z lakehouse. Kromě toho vám ukážeme, jak můžete data zpřístupnit nástrojům pro vytváření sestav třetích stran pomocí koncového bodu TDS/SQL. Tento koncový bod umožňuje připojit se ke skladu a spouštět dotazy SQL pro analýzy.

Další kroky

Přejděte k dalšímu článku, kde se dozvíte, jak na to.