Zdieľať cez


Viac spolu: lakehouse a sklad

Vzťahuje sa na: koncový bod analýzy SQL a sklad v službe Microsoft Fabric

Tento článok vysvetľuje vyťaženie skladu údajov s koncovým bodom analýzy SQL lakehouse a scenáre na použitie služby Lakehouse v sklade údajov.

Čo je koncový bod analýzy SQL Lakehouse?

V službe Fabric sa pri vytváraní domovského jazera automaticky vytvorí sklad.

Koncový bod analýzy SQL umožňuje dotazovať údaje v službe Lakehouse pomocou jazyka T-SQL a protokolu TDS. Každý lakehouse má jeden koncový bod analýzy SQL a každý pracovný priestor môže mať viac ako jeden lakehouse. Počet koncových bodov analýzy SQL v pracovnom priestore zodpovedá počtu položiek Lakehouse.

  • Koncový bod analýzy SQL sa automaticky vygeneruje pre každý domov Lakehouse a zobrazuje tabuľky Delta z Lakehouse ako tabuľky SQL, ktoré možno dotazovať pomocou jazyka T-SQL.
  • Každá tabuľka delta z Lakehouse je zastúpená ako jedna tabuľka. Údaje by mali byť v delta formáte.
  • Predvolený sémantický model služby Power BI je vytvorený pre každý koncový bod analýzy SQL a zodpovedá konvencii pomenovania objektov služby Lakehouse.

Nie je potrebné vytvárať koncový bod analýzy SQL v službe Microsoft Fabric. Používatelia služby Microsoft Fabric nemôžu v pracovnom priestore vytvoriť koncový bod analýzy SQL. Koncový bod analýzy SQL sa automaticky vytvorí pre každý objekt Lakehouse. Ak chcete získať koncový bod analýzy SQL, vytvorte lakehouse a koncový bod analýzy SQL sa automaticky vytvorí pre Lakehouse.

Poznámka

Koncový bod analýzy SQL na pozadí používa rovnaký nástroj ako sklad , ktorý slúži na vysokú mieru výkonu dotazov SQL s nízkou latenciou.

Automatické zisťovanie metaúdajov

Bezproblémový proces prečíta denníky delta a priečinok súborov a zabezpečí, že metaúdaje SQL pre tabuľky, ako sú napríklad štatistiky, budú vždy aktuálne. Nie je potrebná žiadna akcia používateľa a nie je potrebné importovať, kopírovať údaje alebo nastaviť infraštruktúru. Ďalšie informácie nájdete v téme Automaticky generovaná schéma v koncovom bode analýzy SQL.

Scenáre, ktoré lakehouse umožňuje skladovanie údajov

V službe Fabric ponúkame jeden sklad.

Lakehouse, s jeho SQL analytics koncový bod, poháňaný skladom, môže zjednodušiť tradičné rozhodovací strom dávkové, streaming, alebo lambda architektúry vzory. Spolu so skladom umožňuje služba lakehouse množstvo scenárov s pripočítanými analýzami. Táto časť sa zaoberá používaním služby Lakehouse spolu so skladom pre najlepšiu stratégiu analýzy plemena.

Analýza so zlatou vrstvou vášho fabric Lakehouse

Jedna zo známych stratégií pre lake data organization je architektúra medailí, kde sú súbory usporiadané v nespracovanom (bronzovom), konsolidovanom (striebornom) a rafinovanom (zlatom) vrstve. Koncový bod analýzy SQL sa dá použiť na analýzu údajov v zlatej vrstve architektúry medailí, ak sú súbory uložené vo Delta Lake formáte, aj keď sú uložené mimo služby Microsoft Fabric OneLake.

Skratky OneLake môžete použiť na odkazovanie na zlaté priečinky v externých kontách úložiska Azure Data Lake, ktoré sú spravované nástrojmi Synapse Spark alebo Azure Databricks.

Sklady je možné pridať aj ako riešenie orientované na oblasť alebo doménu pre konkrétny predmet, ktorý môže mať požiadavky na analýzu na mieru.

Ak sa rozhodnete ponechať svoje údaje v službe Fabric, budú vždy otvorené a prístupné prostredníctvom rozhraní API, formátu Delta a samozrejme T-SQL.

Dotaz ako služba nad vašimi delta tabuľkami z Lakehouse a ďalších položiek z údajového centra OneLake

Existujú prípady použitia, v ktorých analytik, dátový vedec alebo dátový inžinier môže potrebovať dotazovať údaje v rámci dátového jazera. V fabric, tento koniec až do konca skúsenosti, je úplne SaaSified.

OneLake je jediné zjednotené, logické dátové jazero pre celú organizáciu. OneLake je OneDrive pre údaje. OneLake môže obsahovať viacero pracovných priestorov, napríklad pozdĺž divízií organizácie. Každá položka v službe Fabric umožňuje prístup k údajom prostredníctvom služby OneLake.

Údaje v službe Microsoft Fabric Lakehouse sa fyzicky ukladajú do služby OneLake s nasledujúcou štruktúrou priečinkov:

  • Priečinok /Files obsahuje nespracované a nekonsolidované (bronzové) súbory, ktoré by mali spracovať dátoví inžinieri ešte pred ich analýzou. Súbory môžu byť v rôznych formátoch, ako napríklad CSV, Parquet, rôzne typy obrázkov atď.
  • Priečinok /Tables obsahuje rafinované a konsolidované (zlato) údaje, ktoré sú pripravené na podnikovú analýzu. Konsolidované údaje sú vo formáte Delta Lake.

Koncový bod analýzy SQL môže čítať údaje v priečinku /tables v rámci služby OneLake. Analýza je rovnako jednoduchá ako dotazovanie koncového bodu analýzy SQL na Lakehouse. Spolu so skladom tiež získate dotazy krížovej databázy a budete môcť bezproblémovo prepínať z dotazov iba na čítanie a vytvárať ďalšiu obchodnú logiku na základe údajov zo služby OneLake pomocou skladu údajov Synapse.

Dátový inžinier službou Spark a službou s SQL

Podniky riadené údajmi musia udržiavať svoje serverové a analytické systémy takmer v reálnom čase synchronizované s aplikáciami orientovanými na zákazníkov. Vplyv transakcií musí presne zodpovedať prostredníctvom komplexných procesov, súvisiacich aplikácií a systémov na spracovanie online transakcií (OLTP).

V službe Fabric môžete použiť streamovanie služby Spark alebo Dátový inžinier na vytvorenie údajov. Koncový bod analýzy SQL Lakehouse môžete použiť na overenie kvality údajov a pre existujúce procesy T-SQL. To možno vykonať v architektúre medailónu alebo v rámci viacerých vrstiev vášho Lakehouse, slúžiace bronz, striebro, zlato, alebo inscenácia, spravované a rafinované údaje. Priečinky a tabuľky vytvorené prostredníctvom služby Spark môžete prispôsobiť tak, aby vyhovovali vašim požiadavkám na dátové inžinierstvo a podnikanie. Keď budete pripravení, sklad môže slúžiť všetkým následným aplikáciám business intelligence a iným prípadom použitia analytických nástrojov bez kopírovania údajov, používania zobrazení alebo spresnenia údajov pomocou CREATE TABLE AS SELECT (CTAS), uložených procedúr a ďalších príkazov DML/DDL.

Integrácia so zlatou vrstvou vášho Open Lakehouse

Koncový bod analýzy SQL nie je určený na analýzu údajov len v službe Fabric Lakehouse. Koncový bod analýzy SQL vám umožňuje analyzovať údaje jazera v ľubovoľnom jazere pomocou služieb Synapse Spark, Azure Databricks alebo akéhokoľvek iného dátového inžiniera zameraného na jazero. Údaje môžu byť uložené v Službe Azure Data Lake Storage alebo Amazon S3.

Táto tesná obojsmerná integrácia s fabric lakehouse je vždy dostupná prostredníctvom každého nástroja s otvorenými rozhraniami API, formátom Delta a samozrejme T-SQL.

Data Virtualization of external data lakes with shortcuts (Virtualizácia údajov externých dátových jazier s odkazmi)

Odkazy na službu OneLake môžete používať na odkazovanie na zlaté priečinky v externých kontách úložiska Azure Data Lake, ktoré spravuje nástroj služby Synapse Spark alebo nástroj azure Databricks, ako aj akúkoľvek tabuľku delta uloženú v službe Amazon S3.

Každý priečinok odkazovaný pomocou odkazu je možné analyzovať z koncového bodu analýzy SQL a pre odkazované údaje sa vytvorí SQL tabuľka. Tabuľku SQL možno použiť na vystavenie údajov v externe spravovaných dátových jazerách a umožnenie ich analýzy.

Táto skratka funguje ako virtuálny sklad, ktorý možno využiť zo skladu na dodatočné požiadavky na následnú analýzu po prúde alebo priamo dotazovaný.

Nasledujúce kroky môžete použiť na analýzu údajov v externých kontách úložiska dátového jazera:

  1. Vytvorte odkaz odkaz na priečinok v úložisku Azure Data Lake alebo na konte Amazon S3. Po zadaní podrobností pripojenia a poverení sa odkaz zobrazí v službe Lakehouse.
  2. Prepnite na koncový bod analýzy SQL lakehouse a nájdite tabuľku SQL s názvom, ktorý sa zhoduje s názvom odkazu. Táto tabuľka SQL odkazuje na priečinok v priečinku ADLS/S3.
  3. DotazOVANIE tabuľky SQL, ktorá odkazuje na údaje v ADLS/S3. Tabuľku možno použiť ako akúkoľvek inú tabuľku v koncovom bode analýzy SQL. Tabuľky, ktoré odkazuje na údaje, môžete spájať v rôznych kontách úložiska.

Poznámka

Ak sa tabuľka SQL v koncovom bode analýzy SQL nezobrazí hneď, možno budete musieť počkať niekoľko minút. Tabuľka SQL, ktorá odkazuje na údaje v konte externého úložiska, sa vytvorí s oneskorením.

Analýza archivovaných alebo historických údajov v dátovom jazere

Rozdelenie údajov je dobre známou technikou optimalizácie prístupu k údajom v dátových jazerách. Rozdelenie množín údajov je uložené v hierarchických štruktúrach priečinkov vo formáte /year=<year>/month=<month>/day=<day>, kde year, montha day sú stĺpce rozdelenia. Vďaka tomu môžete ukladať historické údaje logicky oddelené vo formáte, ktorý výpočtovým zariadeniam umožňuje čítať údaje podľa potreby pomocou výkonného filtrovania, a to v porovnaní s čítaním celého adresára a všetkých priečinkov a súborov, ktoré sú v ňom obsiahnuté.

Rozdelenie údajov umožňuje rýchlejší prístup, ak dotazy filtrujú na predikátov, ktoré porovnávajú stĺpce predikátov s hodnotou.

Koncový bod analýzy SQL dokáže jednoducho čítať tento typ údajov bez potreby konfigurácie. Môžete napríklad použiť ľubovoľnú aplikáciu na archiváciu údajov do dátového jazera vrátane SQL Servera 2022 alebo Azure SQL Managed Instance. Po rozdelení údajov do jazera na archivačné účely s externými tabuľkami môže koncový bod analýzy SQL čítať rozdelených tabuliek Delta Lake ako tabuľky SQL a umožniť vašej organizácii ich analyzovať. Takto sa znížia celkové náklady na vlastníctvo, zníži sa duplicita údajov a rozsvietia sa veľké objemy údajov, umelá inteligencia a ďalšie scenáre analýzy.

Virtualizácia údajov služby Fabric pomocou skratiek

V rámci služby Fabric vám pracovné priestory umožňujú oddeliť údaje na základe zložitých obchodných, geografických alebo regulačných požiadaviek.

Koncový bod analýzy SQL vám umožňuje ponechať údaje na mieste a stále analyzovať údaje v sklade alebo objekte Lakehouse, dokonca aj v iných pracovných priestoroch služby Microsoft Fabric, a to prostredníctvom bezproblémovej virtualizácie. Každý Microsoft Fabric Lakehouse ukladá údaje v službe OneLake.

Skratky vám umožňujú odkazovať na priečinky v ľubovoľnom umiestnení OneLake.

Každý sklad služby Microsoft Fabric uchováva tabuľkové údaje v službe OneLake. Ak je tabuľka iba pripojenie, údaje tabuľky sa zobrazia ako údaje Delta Lake v službe OneLake. Klávesové skratky vám umožňujú odkazovať na priečinky v ľubovoľnej službe OneLake, v ktorej sa zobrazujú tabuľky skladu.

Krížové zdieľanie a dotazovanie pracovného priestoru

Zatiaľ čo pracovné priestory umožňujú oddeliť údaje na základe zložitých obchodných, geografických alebo regulačných požiadaviek, niekedy je potrebné uľahčiť zdieľanie v rámci týchto riadkov, a to pre konkrétne potreby analýzy.

Koncový bod analýzy Lakehouse SQL umožňuje jednoduché zdieľanie údajov medzi oddeleniami a používateľmi, kde používateľ môže priniesť svoju vlastnú kapacitu a sklad. Pracovné priestory organizujú oddelenia, organizačné jednotky alebo analytické domény. Pomocou skratiek môžu používatelia nájsť údaje skladu alebo jazera. Používatelia môžu okamžite vykonať vlastnú prispôsobenú analýzu z rovnakých zdieľaných údajov. Okrem pomoci s vrátenými poplatkami oddelení a alokáciou používania ide aj o verziu s nulovou kópiou údajov.

Koncový bod analýzy SQL umožňuje dotazovanie akejkoľvek tabuľky a jednoduché zdieľanie. Pridané ovládacie prvky rolí pracovného priestoru a rolí zabezpečenia, ktoré môžu byť ďalej vrstvené na splnenie ďalších obchodných požiadaviek.

Na povolenie analýzy údajov krížového pracovného priestoru použite nasledujúce kroky:

  1. Vytvorte odkaz OneLake, ktorý odkazuje na tabuľku alebo priečinok v pracovnom priestore, ku ktorému máte prístup.
  2. Vyberte si lakehouse alebo warehouse, ktorý obsahuje tabuľku alebo priečinok Delta Lake, ktorý chcete analyzovať. Po výbere tabuľky alebo priečinka sa v službe Lakehouse zobrazí skratka.
  3. Prepnite na koncový bod analýzy SQL lakehouse a nájdite tabuľku SQL s názvom, ktorý sa zhoduje s názvom odkazu. Táto tabuľka SQL odkazuje na priečinok v inom pracovnom priestore.
  4. Dotazovanie tabuľky SQL, ktorá odkazuje na údaje v inom pracovnom priestore. Tabuľku možno použiť ako akúkoľvek inú tabuľku v koncovom bode analýzy SQL. Tabuľky, ktoré odkazujú na údaje, môžete spájať v rôznych pracovných priestoroch.

Poznámka

Ak sa tabuľka SQL v koncovom bode analýzy SQL nezobrazí hneď, možno budete musieť počkať niekoľko minút. Tabuľka SQL, ktorá odkazuje na údaje v inom pracovnom priestore, sa vytvorí s oneskorením.

Analýza rozdelených údajov

Rozdelenie údajov je dobre známou technikou optimalizácie prístupu k údajom v dátových jazerách. Rozdelenie množín údajov je uložené v hierarchických štruktúrach priečinkov vo formáte /year=<year>/month=<month>/day=<day>, kde year, montha day sú stĺpce rozdelenia. Rozdelenie množín údajov umožňuje rýchlejší prístup k údajom, ak dotazy filtrujú údaje pomocou predikátov, ktoré filtrujú údaje porovnaním predikátových stĺpcov s hodnotou.

Koncový bod analýzy SQL môže reprezentovať rozdelenie množín údajov Delta Lake ako tabuľky SQL a umožniť vám ich analýzu.