Sdílet prostřednictvím


Lepší společně: jezero a sklad

Platí pro:✅ Koncový bod sql Analytics a sklad v Microsoft Fabric

Tento článek vysvětluje úlohy datových skladů s koncovým bodem SQL Analytics v Lakehouse a scénáře použití lakehouse v datových skladech. Průvodce rozhodováním o volbě vývoje dat skladu najdete v průvodci rozhodováním k Microsoft Fabric: Volba mezi skladem a Lakehousem.

Co je koncový bod analýzy SQL Lakehouse?

V Prostředcích infrastruktury se při vytváření jezeře automaticky vytvoří sklad.

Koncový bod analýzy SQL umožňuje dotazovat data v Lakehouse pomocí jazyka T-SQL a protokolu TDS. Každý Lakehouse má jeden koncový bod analýzy SQL a každý pracovní prostor může mít více než jeden Lakehouse. Počet koncových bodů analýzy SQL v pracovním prostoru odpovídá počtu položek Lakehouse.

  • Koncový bod analýzy SQL se automaticky vygeneruje pro všechny lakehouse a zpřístupňuje tabulky Delta z Lakehouse jako tabulky SQL, které je možné dotazovat pomocí jazyka T-SQL.
  • Každá tabulka delta z lakehouse je reprezentována jako jedna tabulka. Data by měla být v rozdílové podobě.
  • Výchozí sémantický model Power BI se vytvoří pro každý koncový bod analýzy SQL a řídí se konvencí pojmenování objektů Lakehouse.

V Microsoft Fabric není potřeba vytvořit koncový bod analýzy SQL. Uživatelé Microsoft Fabric nemůžou vytvořit koncový bod analýzy SQL v pracovním prostoru. Pro každý lakehouse se automaticky vytvoří koncový bod analýzy SQL. Pokud chcete získat koncový bod analýzy SQL, vytvořte lakehouse a koncový bod analýzy SQL se pro Lakehouse vytvoří automaticky.

Poznámka:

Koncový bod analýzy SQL na pozadí používá stejný modul jako Sklad k poskytování dotazů SQL s vysokým výkonem a nízkou latencí.

Automatické zjišťování metadat

Bezproblémový proces čte rozdílové protokoly a ze složky souborů a zajišťuje, že metadata SQL pro tabulky, jako jsou statistiky, jsou vždy aktuální. Není potřeba žádná akce uživatele a nemusíte importovat, kopírovat data ani nastavovat infrastrukturu. Další informace najdete v tématu Automaticky generované schéma v koncovém bodu analýzy SQL.

Scénáře, které lakehouse umožňuje pro datové sklady

V Fabric nabízíme jeden sklad.

Lakehouse s koncovým bodem sql Analytics, který využívá službu Warehouse, může zjednodušit tradiční rozhodovací strom dávkových, streamovaných nebo lambda architekturových vzorů. Společně se skladem umožňuje lakehouse mnoho scénářů s doplňkovými analýzami. V této části se dozvíte, jak používat Lakehouse společně se skladem pro nejlepší strategii analýzy plemen.

Analýzy se zlatou vrstvou vašeho Fabric Lakehouse

Jednou z dobře známých strategií pro organizaci lake data je architektura medailiónu, ve které jsou soubory uspořádány v nezpracovaných (bronzových), konsolidovaných (stříbrných) a zpřesněných (zlatých) vrstvách. Koncový bod analýzy SQL se dá použít k analýze dat ve zlaté vrstvě architektury medallionu, pokud jsou soubory uložené ve Delta Lake formátu, i když jsou uložené mimo Microsoft Fabric OneLake.

Klávesové zkratky OneLake můžete použít k odkazování na zlaté složky v externích účtech azure Data Lake Storage spravovaných moduly Synapse Spark nebo Azure Databricks.

Sklady lze také přidat jako předmětná nebo doménově orientovaná řešení pro konkrétní předmět, které můžou mít požadavky na analýzu.

Pokud se rozhodnete zachovat data v prostředcích infrastruktury, bude vždy otevřená a přístupná prostřednictvím rozhraní API, formátu Delta a samozřejmě T-SQL.

Dotazování jako služby přes tabulky Delta z Lakehouse a dalších položek z datového centra OneLake

Existují případy použití, kdy analytik, datový vědec nebo datový inženýr může potřebovat dotazovat data v datovém jezeře. V prostředcích infrastruktury je toto koncové prostředí zcela SaaSified.

OneLake je jedno jednotné logické datové jezero pro celou organizaci. OneLake je OneDrive pro data. OneLake může obsahovat několik pracovních prostorů, například v rámci organizačních divizí. Každá položka v prostředcích infrastruktury zpřístupňuje data přes OneLake.

Data v Microsoft Fabric Lakehouse jsou fyzicky uložena ve OneLake s následující strukturou složek:

  • Složka /Files obsahuje nezpracované a nekonsolidované (bronzové) soubory, které by před analýzou měli zpracovávat datoví inženýři. Soubory můžou být v různých formátech, jako jsou CSV, Parquet, různé typy obrázků atd.
  • Složka /Tables obsahuje zpřesněná a konsolidovaná (zlatá) data, která jsou připravená pro obchodní analýzu. Konsolidovaná data jsou ve formátu Delta Lake.

Koncový bod analýzy SQL může číst data ve složce v /tables rámci OneLake. Analýza je stejně jednoduchá jako dotazování koncového bodu analýzy SQL v Lakehouse. Společně se skladem získáte také dotazy napříč databázemi a možnost bezproblémového přechodu z dotazů jen pro čtení na vytvoření další obchodní logiky nad daty OneLake pomocí Synapse Data Warehouse.

Datoví technici se Sparkem a obsluhou s SQL

Podniky řízené daty potřebují udržovat back-endové a analytické systémy v téměř reálném čase synchronizované s aplikacemi orientovanými na zákazníky. Dopad transakcí musí přesně odrážet komplexní procesy, související aplikace a systémy OLTP (Online Transaction Processing).

V prostředcích infrastruktury můžete ke kurátorování dat použít Streamování Sparku nebo Datoví technici. Koncový bod Analýzy SQL Lakehouse můžete použít k ověření kvality dat a pro stávající procesy T-SQL. Můžete to provést v architektuře medailiónu nebo v několika vrstvách vašeho Lakehouse, obsluhovat bronzovou, stříbrnou, zlatou nebo přípravnou, kurátorovanou a upřesňující data. Složky a tabulky vytvořené prostřednictvím Sparku můžete přizpůsobit tak, aby splňovaly vaše požadavky na přípravu dat a obchodní požadavky. Až bude sklad připravený, může obsluhovat všechny podřízené aplikace business intelligence a další případy použití analýz bez kopírování dat, použití zobrazení nebo upřesnění dat pomocí CREATE TABLE AS SELECT (CTAS), uložených procedur a dalších příkazů DML/DDL.

Integrace se zlatou vrstvou Open Lakehouse

Koncový bod analýzy SQL není vymezený na analýzu dat pouze v Fabric Lakehouse. Koncový bod analýzy SQL umožňuje analyzovat data lake v libovolném jezeru pomocí Synapse Sparku, Azure Databricks nebo jakéhokoli jiného modulu datového inženýrství zaměřeného na jezero. Data je možné uložit ve službě Azure Data Lake Storage nebo Amazon S3.

Tato úzká obousměrná integrace s Fabric Lakehouse je vždy přístupná prostřednictvím libovolného modulu s otevřenými rozhraními API, formátem Delta a samozřejmě T-SQL.

Virtualizace dat externích datových jezer se zástupci

Klávesové zkratky OneLake můžete použít k odkazování na zlaté složky v externích účtech úložiště Azure Data Lake, které spravuje moduly Synapse Spark nebo Azure Databricks, a také všechny tabulky delta uložené v Amazon S3.

Všechny složky odkazované pomocí zástupce je možné analyzovat z koncového bodu analýzy SQL a pro odkazovaná data se vytvoří tabulka SQL. Tabulku SQL je možné použít k zveřejnění dat v externě spravovaných datových jezerech a povolení jejich analýzy.

Tento zástupce funguje jako virtuální sklad, který může využívat z skladu pro další požadavky na podřízenou analýzu nebo se dotazuje přímo.

K analýze dat v externích účtech Data Lake Storage použijte následující postup:

  1. Vytvořte zástupce, který odkazuje na složku v účtu Azure Data Lake Storage nebo Amazon S3. Po zadání podrobností o připojení a přihlašovacích údajů se v Lakehouse zobrazí zástupce.
  2. Přejděte na koncový bod analýzy SQL lakehouse a vyhledejte tabulku SQL, která má název odpovídající názvu zástupce. Tato tabulka SQL odkazuje na složku ve složce ADLS/S3.
  3. Zadejte dotaz na tabulku SQL, která odkazuje na data v ADLS/S3. Tabulku je možné použít jako jakoukoli jinou tabulku v koncovém bodu analýzy SQL. Tabulky, které odkazují na data v různých účtech úložiště, můžete spojit.

Poznámka:

Pokud se tabulka SQL okamžitě nezobrazuje v koncovém bodu analýzy SQL, možná budete muset několik minut počkat. Tabulka SQL, která odkazuje na data v účtu externího úložiště, se vytvoří se zpožděním.

Analýza archivovaných nebo historických dat v datovém jezeře

Dělení dat je dobře známá technika optimalizace přístupu k datům v datovýchjezerch Dělené datové sady jsou uloženy ve strukturách hierarchických složek ve formátu /year=<year>/month=<month>/day=<day>, kde , monthkde year, a day jsou dělení sloupců. To umožňuje ukládat historická data logicky oddělená ve formátu, který výpočetním modulům umožňuje číst data podle potřeby pomocí výkonného filtrování a číst celý adresář a všechny složky a soubory obsažené v tomto formátu.

Dělená data umožňují rychlejší přístup, pokud dotazy filtrují podle predikátů, které porovnávají sloupce predikátu s hodnotou.

Koncový bod analýzy SQL může snadno číst tento typ dat bez nutnosti konfigurace. Můžete například použít libovolnou aplikaci k archivaci dat do datového jezera, včetně SQL Serveru 2022 nebo spravované instance Azure SQL. Po rozdělení dat do jezera pro účely archivace s externími tabulkami může koncový bod analýzy SQL číst dělené tabulky Delta Lake jako tabulky SQL a umožnit vaší organizaci jejich analýzu. To snižuje celkové náklady na vlastnictví, snižuje duplikaci dat a rozsvítí velké objemy dat, AI a další analytické scénáře.

Virtualizace dat prostředků infrastruktury pomocí klávesových zkratek

Pracovní prostory v rámci prostředků infrastruktury umožňují oddělit data na základě složitých obchodních, geografických nebo regulačních požadavků.

Koncový bod analýzy SQL umožňuje ponechat data na místě a stále analyzovat data ve skladu nebo lakehouse, a to i v jiných pracovních prostorech Microsoft Fabric, prostřednictvím bezproblémové virtualizace. Každý Microsoft Fabric Lakehouse ukládá data v OneLake.

Klávesové zkratky umožňují odkazovat na složky v libovolném umístění OneLake.

Každý Microsoft Fabric Warehouse ukládá data tabulek v OneLake. Pokud je tabulka jen pro připojení, data tabulky se v OneLake zobrazí jako data Delta Lake. Klávesové zkratky umožňují odkazovat na složky v libovolném OneLake, kde jsou vystaveny tabulky Warehouse.

Sdílení a dotazování mezi pracovními prostory

Zatímco pracovní prostory umožňují oddělit data na základě složitých obchodních, geografických nebo regulačních požadavků, někdy potřebujete usnadnit sdílení napříč těmito řádky pro konkrétní potřeby analýzy.

Koncový bod analýzy SQL Lakehouse umožňuje snadné sdílení dat mezi odděleními a uživateli, kde uživatel může přinést vlastní kapacitu a sklad. Pracovní prostory uspořádají oddělení, obchodní jednotky nebo analytické domény. Pomocí klávesových zkratek můžou uživatelé najít data o skladu nebo Lakehouse. Uživatelé můžou okamžitě provádět vlastní přizpůsobené analýzy ze stejných sdílených dat. Kromě pomoci s vracením peněz a přidělením využití oddělení je to také verze nulové kopie dat.

Koncový bod analýzy SQL umožňuje dotazování na libovolnou tabulku a snadné sdílení. Přidané ovládací prvky rolí pracovního prostoru a rolí zabezpečení, které lze dále vrstvit tak, aby splňovaly další obchodní požadavky.

Pomocí následujících kroků povolte analýzu dat mezi pracovními prostory:

  1. Vytvořte zástupce OneLake, který odkazuje na tabulku nebo složku v pracovním prostoru, ke kterému máte přístup.
  2. Zvolte Lakehouse nebo Warehouse obsahující tabulku nebo složku Delta Lake, kterou chcete analyzovat. Jakmile vyberete tabulku nebo složku, zobrazí se v Lakehouse zástupce.
  3. Přejděte na koncový bod analýzy SQL lakehouse a vyhledejte tabulku SQL, která má název odpovídající názvu zástupce. Tato tabulka SQL odkazuje na složku v jiném pracovním prostoru.
  4. Dotazujte tabulku SQL, která odkazuje na data v jiném pracovním prostoru. Tabulku je možné použít jako jakoukoli jinou tabulku v koncovém bodu analýzy SQL. Tabulky, které odkazují na data v různých pracovních prostorech, můžete spojit.

Poznámka:

Pokud se tabulka SQL okamžitě nezobrazuje v koncovém bodu analýzy SQL, možná budete muset několik minut počkat. Tabulka SQL, která odkazuje na data v jiném pracovním prostoru, se vytvoří se zpožděním.

Analýza dělených dat

Dělení dat je dobře známá technika optimalizace přístupu k datům v datovýchjezerch Dělené datové sady jsou uloženy ve strukturách hierarchických složek ve formátu /year=<year>/month=<month>/day=<day>, kde , monthkde year, a day jsou dělení sloupců. Dělené datové sady umožňují rychlejší přístup k datům, pokud dotazy filtrují data pomocí predikátů, které filtrují data porovnáním sloupců predikátu s hodnotou.

Koncový bod analýzy SQL může představovat dělené datové sady Delta Lake jako tabulky SQL a umožňuje je analyzovat.