Bedre sammen: lakehouse og pakhus
Gælder for: SQL Endpoint og Warehouse i Microsoft Fabric
I denne artikel forklares datawarehousing-oplevelsen med SQL-slutpunktet for Lakehouse og scenarier til brug af Lakehouse i datawarehousing.
Vigtigt
Microsoft Fabric findes i øjeblikket i PRØVEVERSION. Disse oplysninger er relateret til et foreløbig produkt, der kan blive ændret væsentligt, før det udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.
Hvad er et Lakehouse SQL-slutpunkt?
Når du opretter et lakehouse i Fabric, oprettes der automatisk et lager .
SQL-slutpunktet giver dig mulighed for at forespørge om data i Lakehouse ved hjælp af T-SQL-sprog og TDS-protokollen. Hver Lakehouse har ét SQL-slutpunkt, og hvert arbejdsområde kan have mere end ét Lakehouse. Antallet af SQL-slutpunkter i et arbejdsområde svarer til antallet af Lakehouse-elementer.
- SQL-slutpunktet genereres automatisk for alle Lakehouse-tabeller og viser Delta-tabeller fra Lakehouse som SQL-tabeller, der kan forespørges ved hjælp af T-SQL-sproget.
- Alle delta-tabeller fra lakehouse repræsenteres som ét bord. Dataene skal være i deltaformat.
- Power BI-standarddatasættet oprettes for hvert SQL-slutpunkt, og det følger navngivningskonventionen for Lakehouse-objekterne.
Det er ikke nødvendigt at oprette et SQL-slutpunkt i Microsoft Fabric. Microsoft Fabric-brugere kan ikke oprette et SQL-slutpunkt i et arbejdsområde. Der oprettes automatisk et SQL-slutpunkt for hver Lakehouse. Hvis du vil hente et SQL-slutpunkt, skal du oprette et lakehouse , og der oprettes automatisk et SQL-slutpunkt for Lakehouse.
Bemærk
I baggrunden bruger SQL Endpoint det samme program som Warehouse til at levere SQL-forespørgsler med høj ydeevne og lav ventetid.
Automatisk registrering af metadata
En problemfri proces læser deltalogge og fra mappen filer og sikrer, at SQL-metadata for tabeller, f.eks. statistikker, altid er opdaterede. Der kræves ingen brugerhandling, og det er ikke nødvendigt at importere, kopiere data eller konfigurere infrastruktur. Du kan finde flere oplysninger under Automatisk genereret skema i SQL-slutpunktet.
Scenarier, som Lakehouse muliggør for data warehousing
I Fabric tilbyder vi ét lager.
Lakehouse kan med sit SQL Endpoint, der drives af Warehouse, forenkle det traditionelle beslutningstræ i batch-, streaming- eller lambda-arkitekturmønstre. Sammen med et lager muliggør lakehouse mange additive analysescenarier. I dette afsnit udforskes det, hvordan du udnytter et Lakehouse sammen med et lager for at få det bedste ud af en strategi til analyse af racen.
Analyser med dit Fabric Lakehouse-guldlag
En af de velkendte strategier for dataorganisationen lake er en medaljonsarkitektur , hvor filerne er organiseret i rå (bronze), konsolideret (sølv) og raffinerede (guld) lag. Et SQL-slutpunkt kan bruges til at analysere data i guldlaget i medaljonsarkitekturen, hvis filerne er gemt i Delta Lake
format, selvom de er gemt uden for Microsoft Fabric OneLake.
Du kan bruge OneLake-genveje til at referere til guldmapper i eksterne Azure Data Lake-lagerkonti, der administreres af Synapse Spark- eller Azure Databricks-motorer.
Lagre kan også tilføjes som emneområder eller domæneorienterede løsninger for bestemte emner, der kan have skræddersyede analysekrav.
Hvis du vælger at beholde dine data i Fabric, vil de altid være åbne og tilgængelige via API'er, Delta-format og selvfølgelig T-SQL.
Forespørg som en tjeneste over dine deltatabeller fra Lakehouse og andre elementer fra OneLake Data Hub
Der er use cases, hvor en analytiker, dataspecialist eller datatekniker kan få brug for at forespørge om data i en data lake. I Fabric er denne oplevelse helt SaaSified.
OneLake er en enkelt samlet, logisk datasø for hele organisationen. OneLake er OneDrive for data. OneLake kan indeholde flere arbejdsområder, f.eks. langs dine organisationsafdelinger. Hvert element i Fabric gør det tilgængeligt for data via OneLake.
Data i et Microsoft Fabric Lakehouse gemmes fysisk i OneLake med følgende mappestruktur:
- Mappen
/Files
indeholder rå og ukonsoliderede filer (bronze), der skal behandles af datateknikere, før de analyseres. Filerne kan være i forskellige formater, f.eks. CSV, Parquet, forskellige typer billeder osv. - Mappen
/Tables
indeholder raffinerede og konsoliderede data (guld), der er klar til forretningsanalyse. De konsoliderede data er i Delta Lake-format.
Et SQL-slutpunkt kan læse data i mappen /tables
i OneLake. Analyse er lige så simpelt som at forespørge PÅ SQL-slutpunktet for Lakehouse. Sammen med Warehouse får du også forespørgsler på tværs af databaser og muligheden for problemfrit at skifte fra skrivebeskyttede forespørgsler til at bygge yderligere forretningslogik oven på dine OneLake-data med Synapse-Data Warehouse.
Data engineering med Spark og servering med SQL
Datadrevne virksomheder skal holde deres back end- og analysesystemer i næsten realtid synkroniseret med kundeorienterede programmer. Virkningen af transaktioner skal afspejles nøjagtigt via komplette processer, relaterede programmer og OLTP-systemer (Online Transaction Processing).
I Fabric kan du udnytte Spark Streaming eller Data Engineering til at organisere dine data. Du kan bruge Lakehouse SQL-slutpunktet til at validere datakvaliteten og for eksisterende T-SQL-processer. Dette kan gøres i en medaljonsarkitektur eller i flere lag af dit Lakehouse, der serverer bronze, sølv, guld eller iscenesættelse, organiserede og raffinerede data. Du kan tilpasse de mapper og tabeller, der er oprettet via Spark, så de opfylder dine datatekniske og forretningsmæssige krav. Når du er klar, kan du derefter udnytte et lager til at betjene alle dine downstream-business intelligence-programmer og andre analyseanvendelsessager uden at kopiere data, bruge visninger eller finjustere data ved hjælp af OPRET TABEL SOM SELECT (CTAS), gemte procedurer og andre DML-/DDL-kommandoer.
Integration med dit Open Lakehouse's guldlag
Et SQL-slutpunkt er ikke begrænset til dataanalyser i Fabric Lakehouse. Et SQL-slutpunkt giver dig mulighed for at analysere lake-data i et hvilket som helst lakehouse ved hjælp af Synapse Spark, Azure Databricks eller et andet lake-centrisk datateknikerprogram. Dataene kan gemmes i Azure Data Lake Storage eller Amazon S3.
Denne tætte tovejsintegration med Fabric Lakehouse er altid tilgængelig via alle motorer med åbne API'er, Delta-formatet og selvfølgelig T-SQL.
Datavirtualisering af eksterne datasøer med genveje
Du kan bruge OneLake-genveje til at referere til guldmapper i eksterne Azure Data Lake-lagerkonti, der administreres af Synapse Spark- eller Azure Databricks-motorer, samt deltatabel, der er gemt i Amazon S3.
Alle mapper, der refereres til ved hjælp af en genvej, kan analyseres fra et SQL-slutpunkt, og der oprettes en SQL-tabel for det datasæt, der refereres til. SQL-tabellen kan bruges til at vise data i eksternt administrerede datasøer og aktivere analyser på dem.
Denne genvej fungerer som et virtuelt lager, der kan udnyttes fra et lager til yderligere krav til downstreamanalyse eller forespørges direkte.
Brug følgende trin til at analysere data i eksterne data lake storage-konti:
- Opret en genvej, der refererer til en mappe i Azure Data Lake-lageret eller Amazon S3-kontoen. Når du angiver forbindelsesoplysninger og legitimationsoplysninger, vises der en genvej i Lakehouse.
- Skift til SQL-slutpunktet for Lakehouse, og find en SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i MAPPEN ADLS/S3.
- Forespørg i den SQL-tabel, der refererer til data i ADLS/S3. Tabellen kan bruges som en hvilken som helst anden tabel i SQL-slutpunktet. Du kan joinforbinde tabeller, der refererer til data i forskellige lagerkonti.
Bemærk
Hvis SQL-tabellen ikke vises med det samme i SQL-slutpunktet, skal du muligvis vente et par minutter. Den SQL-tabel, der refererer til data i en ekstern lagerkonto, oprettes med en forsinkelse.
Analysér arkiverede eller historiske data i en datasø
Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Partitionerede datasæt gemmes i hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>
, hvor year
, month
og day
er partitionskolonnerne. Dette giver dig mulighed for at gemme historiske data logisk adskilt i et format, der gør det muligt for beregningsprogrammer at læse dataene efter behov med effektiv filtrering i forhold til at læse hele mappen og alle mapper og filer, der findes i.
Partitionerede data giver hurtigere adgang, hvis forespørgslerne filtrerer på de prædikater, der sammenligner prædikatkolonner med en værdi.
Et SQL-slutpunkt kan nemt læse denne type data uden konfiguration påkrævet. Du kan f.eks. bruge et hvilket som helst program til at arkivere data i en datasø, herunder SQL Server 2022 eller Azure SQL Managed Instance. Når du har partitioneret data og landet dem i en sø til arkivering med eksterne tabeller, kan et SQL-slutpunkt læse partitionerede Delta Lake-tabeller som SQL-tabeller og give din organisation mulighed for at analysere dem. Dette reducerer de samlede ejeromkostninger, reducerer duplikering af data og lyser big data, AI og andre analysescenarier.
Datavirtualisering af Fabric-data med genveje
I Fabric giver arbejdsområder dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovmæssige krav.
Et SQL-slutpunkt giver dig mulighed for at lade dataene være på plads og stadig analysere data i lageret eller Lakehouse, selv i andre Microsoft Fabric-arbejdsområder, via en problemfri virtualisering. Alle Microsoft Fabric Lakehouse gemmer data i OneLake.
Genveje giver dig mulighed for at referere til mapper på en hvilken som helst OneLake-placering.
Alle Microsoft Fabric Warehouse-lagrer tabeldata i OneLake. Hvis en tabel kun tilføjes, vises tabeldataene som Delta Lake-datasæt i OneLake. Genveje giver dig mulighed for at referere til mapper i en Hvilken som helst OneLake, hvor warehouse-tabellerne vises.
Deling og forespørgsler på tværs af arbejdsområder
Selvom arbejdsområder giver dig mulighed for at adskille data baseret på komplekse forretnings-, geografiske eller lovgivningsmæssige krav, har du nogle gange brug for at facilitere deling på tværs af disse linjer til specifikke analysebehov.
Et Lakehouse SQL-slutpunkt kan gøre det nemt at dele data mellem afdelinger og brugere, hvor en bruger kan medbringe sin egen kapacitet og sit eget lager. Arbejdsområder organiserer afdelinger, forretningsenheder eller analysedomæner. Ved hjælp af genveje kan brugerne finde alle warehouse- eller Lakehouse-data. Brugerne kan med det samme udføre deres egne brugerdefinerede analyser ud fra de samme delte data. Ud over at hjælpe med afdelingstilbageførsler og forbrugsallokering er dette også en version, der ikke kopierer dataene.
SQL-slutpunktet gør det muligt at forespørge på en hvilken som helst tabel og nemt dele. De tilføjede kontrolelementer for arbejdsområderoller og sikkerhedsroller, der kan lægges yderligere i lag, så de opfylder yderligere forretningskrav.
Brug følgende trin til at aktivere dataanalyse på tværs af arbejdsområder:
- Opret en OneLake-genvej, der refererer til en tabel eller en mappe i et arbejdsområde, som du har adgang til.
- Vælg et Lakehouse eller Warehouse, der indeholder en tabel eller en Delta Lake-mappe, som du vil analysere. Når du har valgt en tabel/mappe, vises der en genvej i Lakehouse.
- Skift til SQL-slutpunktet for Lakehouse, og find den SQL-tabel, der har et navn, der svarer til genvejsnavnet. Denne SQL-tabel refererer til mappen i et andet arbejdsområde.
- Forespørg i den SQL-tabel, der refererer til data i et andet arbejdsområde. Tabellen kan bruges som en hvilken som helst anden tabel i SQL-slutpunktet. Du kan joinforbinde de tabeller, der refererer til data i forskellige arbejdsområder.
Bemærk
Hvis SQL-tabellen ikke vises med det samme i SQL-slutpunktet, skal du muligvis vente et par minutter. Den SQL-tabel, der refererer til data i et andet arbejdsområde, oprettes med en forsinkelse.
Analysér partitionerede data
Datapartitionering er en velkendt teknik til optimering af dataadgang i datasøer. Partitionerede datasæt gemmes i hierarkiske mappestrukturer i formatet /year=<year>/month=<month>/day=<day>
, hvor year
, month
og day
er partitionskolonnerne. Partitionerede datasæt giver hurtigere adgang til data, hvis forespørgslerne filtrerer data ved hjælp af de prædikater, der filtrerer data, ved at sammenligne prædikatkolonner med en værdi.
Et SQL-slutpunkt kan repræsentere partitionerede Delta Lake-datasæt som SQL-tabeller og give dig mulighed for at analysere dem.