Bedre sammen: lakehouse og lager

Gælder for: SQL Analytics-slutpunkt og warehouse i Microsoft Fabric

I denne artikel forklares arbejdsbelastningen for datawarehousing med SQL Analytics-slutpunktet for Lakehouse og scenarier for brug af Lakehouse i datawarehousing.

Hvad er et Lakehouse SQL Analytics-slutpunkt?

Når du opretter et lakehouse i Fabric, oprettes der automatisk et lager .

Sql Analytics-slutpunktet giver dig mulighed for at forespørge om data i Lakehouse ved hjælp af T-SQL-sproget og TDS-protokollen. Hver Lakehouse har ét SQL Analytics-slutpunkt, og hvert arbejdsområde kan have mere end én Lakehouse. Antallet af SQL-analyseslutpunkter i et arbejdsområde svarer til antallet af Lakehouse-elementer.

  • SQL-analyseslutpunktet genereres automatisk for hver Lakehouse og viser Delta-tabeller fra Lakehouse som SQL-tabeller, der kan forespørges ved hjælp af T-SQL-sproget.
  • Hver deltatabel fra en Lakehouse repræsenteres som én tabel. Dataene skal være i deltaformat.
  • Den semantiske Power BI-standardmodel oprettes for hvert SQL-analyseslutpunkt, og den følger navngivningskonventionen for Lakehouse-objekterne.

Det er ikke nødvendigt at oprette et SQL Analytics-slutpunkt i Microsoft Fabric. Microsoft Fabric-brugere kan ikke oprette et SQL Analytics-slutpunkt i et arbejdsområde. Der oprettes automatisk et SQL Analytics-slutpunkt for hver Lakehouse. Hvis du vil hente et SQL Analytics-slutpunkt, skal du oprette et lakehouse, og der oprettes automatisk et SQL Analytics-slutpunkt for Lakehouse.

Bemærk

I baggrunden bruger SQL Analytics-slutpunktet det samme program som Warehouse til at levere SQL-forespørgsler med høj ydeevne og lav ventetid.

Automatisk registrering af metadata

En problemfri proces læser deltalogge og fra mappen filer og sikrer, at SQL-metadata for tabeller, f.eks. statistikker, altid er opdateret. Der kræves ingen brugerhandling, og det er ikke nødvendigt at importere, kopiere data eller konfigurere infrastruktur. Du kan finde flere oplysninger under Automatisk genereret skema i SQL Analytics-slutpunktet.

Scenarier, som Lakehouse muliggør til datawarehousing

I Fabric tilbyder vi ét lager.

Lakehouse kan med sit SQL Analytics-slutpunkt, der drives af Warehouse, forenkle det traditionelle beslutningstræ i batch-, streaming- eller lambda-arkitekturmønstre. Lakehouse muliggør sammen med et lager mange scenarier med additive analyser. I dette afsnit udforskes det, hvordan du udnytter en Lakehouse sammen med et lager for at få det bedste ud af en analysestrategi for racen.

Analyse med dit Fabric Lakehouse-guldlag

En af de velkendte strategier for dataorganisationen lake er en medaljonsarkitektur , hvor filerne er organiseret i rå (bronze), konsolideret (sølv) og raffinerede (guld) lag. Et SQL Analytics-slutpunkt kan bruges til at analysere data i guldlaget i medaljonsarkitekturen, hvis filerne er gemt i Delta Lake format, også selvom de er gemt uden for Microsoft Fabric OneLake.

Du kan bruge OneLake-genveje til at referere til guldmapper i eksterne Azure Data Lake-lagerkonti, der administreres af Synapse Spark- eller Azure Databricks-motorer.

Lagre kan også tilføjes som emneområder eller domæneorienterede løsninger for bestemte emner, der kan have skræddersyede analysekrav.

Hvis du vælger at beholde dine data i Fabric, vil de altid være åbne og tilgængelige via API'er, Delta-format og selvfølgelig T-SQL.

Forespørg som en tjeneste over dine deltatabeller fra Lakehouse og andre elementer fra OneLake Data Hub

Der er use cases, hvor en analytiker, dataspecialist eller datatekniker kan have brug for at forespørge om data i en data lake. I Fabric er denne oplevelse fra ende til anden fuldstændig SaaSified.

OneLake er en enkelt, samlet og logisk datasø for hele organisationen. OneLake er OneDrive for data. OneLake kan indeholde flere arbejdsområder, f.eks. langs dine organisationsafdelinger. Alle elementer i Fabric gør dem tilgængelige via OneLake.

Data i et Microsoft Fabric Lakehouse gemmes fysisk i OneLake med følgende mappestruktur:

  • Mappen /Files indeholder rå og ikke-konsoliderede filer (bronze), der skal behandles af datateknikere, før de analyseres. Filerne kan være i forskellige formater, f.eks. CSV, Parquet, forskellige typer billeder osv.
  • Mappen /Tables indeholder afgrænsede og konsoliderede (guld) data, der er klar til forretningsanalyse. De konsoliderede data er i Delta Lake-format.

Et SQL Analytics-slutpunkt kan læse data i mappen /tables i OneLake. Analyse er lige så enkelt som at forespørge om SQL Analytics-slutpunktet for Lakehouse. Sammen med Warehouse får du også forespørgsler på tværs af databaser og muligheden for problemfrit at skifte fra skrivebeskyttede forespørgsler til at bygge yderligere forretningslogik oven på dine OneLake-data med Synapse Data Warehouse.

Dataudvikler med Spark og Servering med SQL

Datadrevne virksomheder skal holde deres back end- og analysesystemer i næsten realtidssynkronisering med kundeorienterede programmer. Virkningen af transaktioner skal afspejles nøjagtigt via komplette processer, relaterede programmer og OLTP-systemer (online transaction processing).

I Fabric kan du udnytte Spark Streaming eller Dataudvikler til at organisere dine data. Du kan bruge Sql Analytics-slutpunktet for Lakehouse til at validere datakvaliteten og for eksisterende T-SQL-processer. Dette kan gøres i en medaljonsarkitektur eller i flere lag af dit Lakehouse, der serverer bronze, sølv, guld eller midlertidig lagring, kuraterede og raffinerede data. Du kan tilpasse de mapper og tabeller, der oprettes via Spark, så de opfylder dine datatekniske og forretningsmæssige krav. Når du er klar, kan du derefter udnytte et lager til at betjene alle dine downstream-business intelligence-programmer og andre analyseanvendelser uden at kopiere data, bruge Visninger eller finjustere data ved hjælp af OPRET TABEL SOM VÆLG (CTAS), gemte procedurer og andre DML-/DDL-kommandoer.

Integration med dit Open Lakehouses guldlag

Et SQL Analytics-slutpunkt er ikke begrænset til dataanalyse i Kun Fabric Lakehouse. Et SQL Analytics-slutpunkt giver dig mulighed for at analysere lakedata i alle lakehouses ved hjælp af Synapse Spark, Azure Databricks eller et andet lake-centric data engineering-program. Dataene kan gemmes i Azure Data Lake Storage eller Amazon S3.

Denne tætte, tovejsintegration med Fabric Lakehouse er altid tilgængelig via ethvert program med åbne API'er, Delta-formatet og selvfølgelig T-SQL.

Datavirtualisering af eksterne datasøer med genveje

Du kan bruge OneLake-genveje til at referere til guldmapper i eksterne Azure Data Lake-lagerkonti, der administreres af Synapse Spark- eller Azure Databricks-motorer, samt en hvilken som helst deltatabel, der er gemt i Amazon S3.

Alle mapper, der refereres til ved hjælp af en genvej, kan analyseres fra et SQL Analytics-slutpunkt, og der oprettes en SQL-tabel for de data, der refereres til. SQL-tabellen kan bruges til at vise data i eksternt administrerede datasøer og aktivere analyser på dem.

Denne genvej fungerer som et virtuelt lager, der kan udnytte fra et lager til yderligere krav til downstreamanalyse eller forespørges direkte.

Brug følgende trin til at analysere data i eksterne datasølagerkonti:

  1. Opret en genvej, der refererer til en mappe i Azure Data Lake-lageret eller Amazon S3-konto. Når du angiver forbindelsesoplysninger og legitimationsoplysninger, vises der en genvej i Lakehouse.
  2. Skift til SQL Analytics-slutpunktet for Lakehouse, og find en SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i ADLS/S3-mappen.
  3. Forespørg den SQL-tabel, der refererer til data i ADLS/S3. Tabellen kan bruges som en hvilken som helst anden tabel i SQL Analytics-slutpunktet. Du kan joinforbinde tabeller, der refererer til data i forskellige lagerkonti.

Bemærk

Hvis SQL-tabellen ikke vises med det samme i SQL Analytics-slutpunktet, skal du muligvis vente et par minutter. Den SQL-tabel, der refererer til data i en ekstern lagerkonto, oprettes med en forsinkelse.

Analysér arkiverede eller historiske data i en datasø

Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Partitionerede datasæt gemmes i de hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>, hvor year, monthog day er partitioneringskolonnerne. Dette giver dig mulighed for at gemme historiske data logisk adskilt i et format, der gør det muligt for beregningsprogrammer at læse dataene efter behov med effektiv filtrering i forhold til at læse hele mappen og alle mapper og filer i.

Partitionerede data giver hurtigere adgang, hvis forespørgslerne filtrerer på de prædikater, der sammenligner prædikatkolonner med en værdi.

Et SQL Analytics-slutpunkt kan nemt læse denne type data uden konfiguration påkrævet. Du kan f.eks. bruge et hvilket som helst program til at arkivere data i en data lake, herunder SQL Server 2022 eller Azure SQL Managed Instance. Når du har partitioneret data og landet dem i en sø til arkivering med eksterne tabeller, kan et SQL-analyseslutpunkt læse partitionerede Delta Lake-tabeller som SQL-tabeller og give din organisation mulighed for at analysere dem. Dette reducerer de samlede ejeromkostninger, reducerer duplikering af data og lyser big data, AI og andre analysescenarier.

Datavirtualisering af Fabric-data med genveje

I Fabric giver arbejdsområder dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovmæssige krav.

Et SQL Analytics-slutpunkt giver dig mulighed for at lade dataene være på plads og stadig analysere data i Warehouse eller Lakehouse, selv i andre Microsoft Fabric-arbejdsområder, via en problemfri virtualisering. Alle Microsoft Fabric Lakehouse gemmer data i OneLake.

Genveje giver dig mulighed for at referere til mapper på en vilkårlig OneLake-placering.

Alle Microsoft Fabric Warehouse gemmer tabeldata i OneLake. Hvis en tabel kun tilføjes, vises tabeldataene som Delta Lake-data i OneLake. Genveje giver dig mulighed for at referere til mapper i en Hvilken som helst OneLake, hvor warehouse-tabellerne vises.

Deling og forespørgsel på tværs af arbejdsområder

Arbejdsområder giver dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovmæssige krav, men nogle gange er du nødt til at gøre det nemmere at dele på tværs af disse linjer til specifikke analysebehov.

Et Lakehouse SQL Analytics-slutpunkt kan gøre det nemt at dele data mellem afdelinger og brugere, hvor en bruger kan medbringe sin egen kapacitet og sit eget lager. Arbejdsområder organiserer afdelinger, forretningsenheder eller analytiske domæner. Ved hjælp af genveje kan brugerne finde alle lagerdata eller Lakehouse-data. Brugerne kan straks udføre deres egne brugerdefinerede analyser fra de samme delte data. Ud over at hjælpe med afdelingstilbageførsler og forbrugsallokering er dette også en version med nul kopi af dataene.

SQL Analytics-slutpunktet gør det muligt at forespørge på en hvilken som helst tabel og nemt at dele. De tilføjede kontrolelementer for arbejdsområderoller og sikkerhedsroller, der kan lægges yderligere i lag for at opfylde yderligere forretningsmæssige krav.

Brug følgende trin til at aktivere dataanalyse på tværs af arbejdsområder:

  1. Opret en OneLake-genvej, der refererer til en tabel eller en mappe i et arbejdsområde, som du har adgang til.
  2. Vælg et Lakehouse eller Warehouse, der indeholder en tabel eller Delta Lake-mappe, som du vil analysere. Når du har valgt en tabel/mappe, vises der en genvej i Lakehouse.
  3. Skift til SQL Analytics-slutpunktet for Lakehouse, og find den SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i et andet arbejdsområde.
  4. Forespørg den SQL-tabel, der refererer til data i et andet arbejdsområde. Tabellen kan bruges som en hvilken som helst anden tabel i SQL Analytics-slutpunktet. Du kan joinforbinde de tabeller, der refererer til data i forskellige arbejdsområder.

Bemærk

Hvis SQL-tabellen ikke vises med det samme i SQL Analytics-slutpunktet, skal du muligvis vente et par minutter. Den SQL-tabel, der refererer til data i et andet arbejdsområde, oprettes med en forsinkelse.

Analysér partitionerede data

Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Partitionerede datasæt gemmes i de hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>, hvor year, monthog day er partitioneringskolonnerne. Partitionerede datasæt giver hurtigere dataadgang, hvis forespørgslerne filtrerer data ved hjælp af de prædikater, der filtrerer data, ved at sammenligne prædikatkolonner med en værdi.

Et SQL Analytics-slutpunkt kan repræsentere partitionerede Delta Lake-datasæt som SQL-tabeller og give dig mulighed for at analysere dem.