Bedre sammen: lakehouse og lager

Gjelder for: SQL Analytics-endepunkt og Warehouse i Microsoft Fabric

Denne artikkelen forklarer arbeidsmengden for datalagring med SQL Analytics-endepunktet i Lakehouse, og scenarier for bruk av Lakehouse i datalagring.

Hva er et endepunkt for SQL-analyse i Lakehouse?

Når du oppretter et lakehouse i Fabric, opprettes et lager automatisk.

Sql Analytics-endepunktet gjør det mulig å spørre etter data i Lakehouse ved hjelp av T-SQL-språk og TDS-protokoll. Hver Lakehouse har ett SQL Analytics-endepunkt, og hvert arbeidsområde kan ha mer enn ett Lakehouse. Antall SQL-analyseendepunkter i et arbeidsområde samsvarer med antall Lakehouse-elementer.

  • Sql Analytics-endepunktet genereres automatisk for hver Lakehouse og viser Delta-tabeller fra Lakehouse som SQL-tabeller som kan spørres ved hjelp av T-SQL-språket.
  • Hvert deltabord fra et Lakehouse er representert som ett bord. Dataene skal være i deltaformat.
  • Standard power BI-semantisk modell opprettes for hvert SQL Analytics-endepunkt, og den følger navnekonvensjonen til Lakehouse-objektene.

Det er ikke nødvendig å opprette et SQL Analytics-endepunkt i Microsoft Fabric. Microsoft Fabric-brukere kan ikke opprette et SQL Analytics-endepunkt i et arbeidsområde. Et SQL Analytics-endepunkt opprettes automatisk for hver Lakehouse. Hvis du vil ha et SQL Analytics-endepunkt, oppretter du et lakehouse og et SQL Analytics-endepunkt opprettes automatisk for Lakehouse.

Merk

Bak kulissene bruker SQL Analytics-endepunktet den samme motoren som Warehouse til å betjene SQL-spørringer med høy ytelse og lav ventetid.

Automatisk metadataoppdagelse

En sømløs prosess leser deltaloggene og fra filer-mappen og sikrer at SQL-metadata for tabeller, for eksempel statistikk, alltid er oppdatert. Det kreves ingen brukerhandling, og du trenger ikke å importere, kopiere data eller konfigurere infrastruktur. Hvis du vil ha mer informasjon, kan du se Automatisk generert skjema i endepunktet for SQL-analyse.

Scenarioer Lakehouse muliggjør datalagring

I Fabric tilbyr vi ett lager.

Lakehouse, med sql analytics-endepunktet, drevet av Warehouse, kan forenkle det tradisjonelle beslutningstreet med batch-, streaming- eller lambda-arkitekturmønstre. Sammen med et lager muliggjør lakehouse mange additivanalysescenarioer. Denne delen utforsker hvordan du bruker et Lakehouse sammen med et lager for å få en best mulig strategi for raseanalyse.

Analyse med Fabric Lakehouses gulllag

En av de velkjente strategiene for lake data organization er en medaljong arkitektur hvor filene er organisert i rå (bronse), konsolidert (sølv) og raffinerte (gull) lag. Et SQL Analytics-endepunkt kan brukes til å analysere data i gulllaget med medaljongarkitektur hvis filene er lagret i Delta Lake format, selv om de er lagret utenfor Microsoft Fabric OneLake.

Du kan bruke OneLake-snarveier til å referere til gullmapper i eksterne Azure Data Lake-lagringskontoer som administreres av Synapse Spark- eller Azure Databricks-motorer.

Lagre kan også legges til som emneområde eller domeneorienterte løsninger for bestemte emner som kan ha skreddersydde analysekrav.

Hvis du velger å beholde dataene i Fabric, vil de alltid være åpne og tilgjengelige via API-er, Delta-format og selvfølgelig T-SQL.

Spør som en tjeneste over deltatabellene fra Lakehouse og andre elementer fra OneLake-datahuben

Det finnes brukstilfeller der en analytiker, dataforsker eller datatekniker kanskje må spørre etter data i en datainnsjø. I Fabric er denne ende-til-ende-opplevelsen helt SaaSified.

OneLake er en enkel, enhetlig, logisk datainnsjø for hele organisasjonen. OneLake er OneDrive for data. OneLake kan inneholde flere arbeidsområder, for eksempel langs organisasjonsavdelingene. Hvert element i Fabric gjør dem tilgjengelige via OneLake.

Data i et Microsoft Fabric Lakehouse lagres fysisk i OneLake med følgende mappestruktur:

  • Mappen /Files inneholder rå og ikke-konsoliderte (bronse)-filer som skal behandles av datateknikere før de analyseres. Filene kan være i ulike formater, for eksempel CSV, Parquet, ulike typer bilder osv.
  • Mappen /Tables inneholder raffinerte og konsoliderte (gull) data som er klare for forretningsanalyse. De konsoliderte dataene er i Delta Lake-format.

Et SQL Analytics-endepunkt kan lese data i mappen i /tables OneLake. Analyse er så enkelt som å spørre sql analytics-endepunktet i Lakehouse. Sammen med lageret får du også spørringer på tvers av databaser og muligheten til å sømløst bytte fra skrivebeskyttede spørringer til å bygge ekstra forretningslogikk oppå OneLake-dataene med Synapse Data Warehouse.

Dataingeniør med spark og servering med SQL

Datadrevne virksomheter må holde back-end- og analysesystemene sine i nær sanntidssynkronisering med kunderettede programmer. Virkningen av transaksjoner må gjenspeiles nøyaktig gjennom ende-til-ende-prosesser, relaterte programmer og OLTP-systemer (Online Transaction Processing).

I Fabric kan du bruke Spark Streaming eller Dataingeniør til å kuratere dataene. Du kan bruke Lakehouse SQL Analytics-endepunktet til å validere datakvalitet og for eksisterende T-SQL-prosesser. Dette kan gjøres i en medaljongarkitektur eller innenfor flere lag av Lakehouse, som serverer bronse, sølv, gull eller iscenesettelse, kuraterte og raffinerte data. Du kan tilpasse mappene og tabellene som er opprettet via Spark, slik at de oppfyller kravene til datateknikk og forretningsvirksomhet. Når du er klar, kan et lager betjene alle dine nedstrøms forretningsanalyseprogrammer og andre analysebrukstilfeller, uten å kopiere data, ved hjelp av visninger eller presisering av data ved hjelp av CREATE TABLE AS SELECT (CTAS), lagrede prosedyrer og andre DML- / DDL-kommandoer.

Integrering med Open Lakehouses gulllag

Et SQL Analytics-endepunkt er ikke begrenset til dataanalyse i bare Fabric Lakehouse. Et endepunkt for SQL-analyse gjør det mulig å analysere innsjødata i et hvilket som helst lakehouse, ved hjelp av Synapse Spark, Azure Databricks eller en annen innsjøsentrisk datateknikkmotor. Dataene kan lagres i Azure Data Lake Storage eller Amazon S3.

Denne tette, toveis integreringen med Fabric Lakehouse er alltid tilgjengelig gjennom alle motorer med åpne API-er, Delta-format og selvfølgelig T-SQL.

Datavirtualisering av eksterne datainnsjøer med snarveier

Du kan bruke OneLake-snarveier til å referere til gullmapper i eksterne Azure Data Lake-lagringskontoer som administreres av Synapse Spark- eller Azure Databricks-motorer, samt alle deltatabeller som er lagret i Amazon S3.

Alle mapper som det refereres til ved hjelp av en snarvei, kan analyseres fra et SQL Analytics-endepunkt, og en SQL-tabell opprettes for de refererte dataene. SQL-tabellen kan brukes til å vise data i eksternt administrerte datainnsjøer og aktivere analyser på dem.

Denne snarveien fungerer som et virtuelt lager som kan utnyttes fra et lager for flere nedstrøms analysekrav, eller spørres direkte.

Bruk følgende fremgangsmåte for å analysere data i kontoer for lagring av eksterne data lake:

  1. Opprett en snarvei som refererer til en mappe i Azure Data Lake Storage eller Amazon S3-konto. Når du har skrevet inn tilkoblingsdetaljer og legitimasjon, vises en snarvei i Lakehouse.
  2. Bytt til SQL Analytics-endepunktet i Lakehouse, og finn en SQL-tabell som har et navn som samsvarer med snarveisnavnet. Denne SQL-tabellen refererer til mappen i ADLS/S3-mappen.
  3. Spør sql-tabellen som refererer til data i ADLS/S3. Tabellen kan brukes som en hvilken som helst annen tabell i SQL Analytics-endepunktet. Du kan koble sammen tabeller som refererer til data i ulike lagringskontoer.

Merk

Hvis SQL-tabellen ikke vises umiddelbart i SQL Analytics-endepunktet, må du kanskje vente noen minutter. SQL-tabellen som refererer til data i ekstern lagringskonto, opprettes med en forsinkelse.

Analysere arkiverte eller historiske data i en datainnsjø

Datapartisjonering er en velkjent teknikk for datatilgangsoptimalisering i datainnsjøer. Partisjonerte datasett lagres i de hierarkiske mappestrukturene i formatet /year=<year>/month=<month>/day=<day>, der year, monthog day er partisjoneringskolonnene. Dette gjør at du kan lagre historiske data logisk atskilt i et format som gjør det mulig for databehandlingsmotorer å lese dataene etter behov med utførlig filtrering, kontra å lese hele katalogen og alle mapper og filer i.

Partisjonerte data gir raskere tilgang hvis spørringene filtrerer på predikatene som sammenligner predikatkolonner med en verdi.

Et SQL Analytics-endepunkt kan enkelt lese denne typen data uten nødvendig konfigurasjon. Du kan for eksempel bruke et hvilket som helst program til å arkivere data i en datainnsjø, inkludert SQL Server 2022 eller Azure SQL administrert forekomst. Når du har partisjonert data og landet dem i en innsjø for arkivformål med eksterne tabeller, kan et SQL-analyseendepunkt lese partisjonerte Delta Lake-tabeller som SQL-tabeller og la organisasjonen analysere dem. Dette reduserer de totale eierkostnadene, reduserer dataduplisering og lyser opp store data, KUNSTIG INTELLIGENS, andre analysescenarioer.

Datavirtualisering av stoffdata med snarveier

I Fabric lar arbeidsområder deg skille data basert på komplekse forretningsmessige, geografiske eller forskriftsmessige krav.

Et SQL Analytics-endepunkt gjør det mulig å la dataene være på plass og fortsatt analysere data i Warehouse eller Lakehouse, selv i andre Microsoft Fabric-arbeidsområder, via en sømløs virtualisering. Alle Microsoft Fabric Lakehouse lagrer data i OneLake.

Med snarveier kan du referere til mapper på en hvilken som helst OneLake-plassering.

Alle Microsoft Fabric Warehouse lagrer tabelldata i OneLake. Hvis en tabell bare er tilføyet, vises tabelldataene som Delta Lake-data i OneLake. Snarveier gjør det mulig å referere til mapper i onelake der Lager-tabellene vises.

Deling og spørring på tvers av arbeidsområder

Selv om arbeidsområder lar deg skille data basert på komplekse forretningsmessige, geografiske eller forskriftsmessige krav, må du noen ganger legge til rette for deling på tvers av disse linjene for spesifikke analysebehov.

Et endepunkt for Sql-analyse i Lakehouse kan muliggjøre enkel deling av data mellom avdelinger og brukere, der en bruker kan hente sin egen kapasitet og sitt lager. Arbeidsområder organiserer avdelinger, forretningsenheter eller analytiske domener. Ved hjelp av snarveier kan brukere finne eventuelle warehouse- eller Lakehouse-data. Brukere kan umiddelbart utføre sine egne tilpassede analyser fra de samme delte dataene. I tillegg til å hjelpe til med avdelingstilbakeføringer og brukstildeling, er dette også en nullkopiversjon av dataene.

Sql Analytics-endepunktet muliggjør spørring av alle tabeller og enkel deling. De ekstra kontrollene for arbeidsområderoller og sikkerhetsroller som kan legges sammen ytterligere for å oppfylle flere forretningskrav.

Bruk følgende fremgangsmåte for å aktivere dataanalyse på tvers av arbeidsområder:

  1. Opprett en OneLake-snarvei som refererer til en tabell eller en mappe i et arbeidsområde som du har tilgang til.
  2. Velg en Lakehouse eller Warehouse som inneholder en tabell eller Delta Lake-mappe som du vil analysere. Når du velger en tabell/mappe, vises en snarvei i Lakehouse.
  3. Bytt til SQL Analytics-endepunktet i Lakehouse, og finn SQL-tabellen som har et navn som samsvarer med snarveisnavnet. Denne SQL-tabellen refererer til mappen i et annet arbeidsområde.
  4. Spør sql-tabellen som refererer til data i et annet arbeidsområde. Tabellen kan brukes som en hvilken som helst annen tabell i SQL Analytics-endepunktet. Du kan koble sammen tabellene som refererer til data i forskjellige arbeidsområder.

Merk

Hvis SQL-tabellen ikke vises umiddelbart i SQL Analytics-endepunktet, må du kanskje vente noen minutter. SQL-tabellen som refererer til data i et annet arbeidsområde, opprettes med en forsinkelse.

Analysere partisjonerte data

Datapartisjonering er en velkjent teknikk for datatilgangsoptimalisering i datainnsjøer. Partisjonerte datasett lagres i de hierarkiske mappestrukturene i formatet /year=<year>/month=<month>/day=<day>, der year, monthog day er partisjoneringskolonnene. Partisjonerte datasett gir raskere datatilgang hvis spørringene filtrerer data ved hjelp av predikatene som filtrerer data ved å sammenligne predikatkolonner med en verdi.

Et SQL Analytics-endepunkt kan representere partisjonerte Delta Lake-datasett som SQL-tabeller og gjøre det mulig å analysere dem.