Dela via


Bättre tillsammans: sjöhuset och lagret

Gäller för: SQL-analysslutpunkt och lager i Microsoft Fabric

Den här artikeln beskriver arbetsbelastningen för datalagerhantering med SQL-analysslutpunkten för Lakehouse och scenarier för användning av Lakehouse i datalager.

Vad är en Lakehouse SQL-analysslutpunkt?

När du skapar ett lakehouse i Infrastruktur skapas ett lager automatiskt.

Med SQL-analysslutpunkten kan du köra frågor mot data i Lakehouse med T-SQL-språket och TDS-protokollet. Varje Lakehouse har en SQL-analysslutpunkt och varje arbetsyta kan ha mer än en Lakehouse. Antalet SQL-analysslutpunkter på en arbetsyta matchar antalet Lakehouse-objekt.

  • SQL-analysslutpunkten genereras automatiskt för varje Lakehouse och exponerar Delta-tabeller från Lakehouse som SQL-tabeller som kan efterfrågas med T-SQL-språket.
  • Varje deltatabell från ett Lakehouse representeras som en tabell. Data ska vara i deltaformat.
  • Standardmodellen för Power BI-semantik skapas för varje SQL-analysslutpunkt och följer namngivningskonventionen för Lakehouse-objekten.

Du behöver inte skapa en SQL-analysslutpunkt i Microsoft Fabric. Microsoft Fabric-användare kan inte skapa en SQL-analysslutpunkt på en arbetsyta. En SQL-analysslutpunkt skapas automatiskt för varje Lakehouse. För att få en SQL-analysslutpunkt skapar du ett lakehouse och en SQL-analysslutpunkt skapas automatiskt för Lakehouse.

Kommentar

I bakgrunden använder SQL-analysslutpunkten samma motor som warehouse för att hantera SQL-frågor med höga prestanda och korta svarstider.

Automatisk metadataidentifiering

En sömlös process läser deltaloggarna och från filmappen och säkerställer att SQL-metadata för tabeller, till exempel statistik, alltid är uppdaterade. Det behövs ingen användaråtgärd och du behöver inte importera, kopiera data eller konfigurera infrastruktur. Mer information finns i Automatiskt genererat schema i SQL-analysslutpunkten.

Scenarier som Lakehouse möjliggör för datalagerhantering

I Fabric erbjuder vi ett lager.

Lakehouse med sin SQL-analysslutpunkt, som drivs av lagret, kan förenkla det traditionella beslutsträdet för batch-, strömnings- eller lambda-arkitekturmönster. Tillsammans med ett lager möjliggör lakehouse många scenarier för additiv analys. I det här avsnittet beskrivs hur du använder ett Lakehouse tillsammans med ett lager för bästa möjliga strategi för rasanalys.

Analys med ditt Fabric Lakehouse-guldlager

En av de välkända strategierna för lakedataorganisation är en medallionarkitektur där filerna organiseras i råa (brons), konsoliderade (silver) och raffinerade (guld) lager. En SQL-analysslutpunkt kan användas för att analysera data i guldskiktet i medaljongarkitekturen om filerna lagras i Delta Lake format, även om de lagras utanför Microsoft Fabric OneLake.

Du kan använda OneLake-genvägar för att referera till guldmappar i externa Azure Data Lake-lagringskonton som hanteras av Synapse Spark- eller Azure Databricks-motorer.

Lager kan också läggas till som ämnesområde eller domänorienterade lösningar för specifika ämnen som kan ha skräddarsydda analyskrav.

Om du väljer att behålla dina data i Infrastruktur är de alltid öppna och tillgängliga via API:er, Delta-format och naturligtvis T-SQL.

Fråga som en tjänst över dina deltatabeller från Lakehouse och andra objekt från OneLake-datahubben

Det finns användningsfall där en analytiker, dataexpert eller datatekniker kan behöva köra frågor mot data i en datasjö. I Fabric är den här upplevelsen från slutpunkt till slutpunkt helt SaaSified.

OneLake är en enda, enhetlig, logisk datasjö för hela organisationen. OneLake är OneDrive för data. OneLake kan innehålla flera arbetsytor, till exempel längs dina organisationsdivisioner. Varje objekt i Infrastruktur gör data tillgängliga via OneLake.

Data i en Microsoft Fabric Lakehouse lagras fysiskt i OneLake med följande mappstruktur:

  • Mappen /Files innehåller råa och icke-konsoliderade filer (brons) som ska bearbetas av datatekniker innan de analyseras. Filerna kan ha olika format, till exempel CSV, Parquet, olika typer av bilder osv.
  • Mappen /Tables innehåller förfinade och konsoliderade data (guld) som är redo för affärsanalys. Konsoliderade data är i Delta Lake-format.

En SQL-analysslutpunkt kan läsa data i /tables mappen i OneLake. Analysen är lika enkel som att köra frågor mot SQL-analysslutpunkten i Lakehouse. Tillsammans med informationslagret får du även frågor mellan databaser och möjligheten att sömlöst växla från skrivskyddade frågor till att skapa ytterligare affärslogik ovanpå dina OneLake-data med Synapse Data Warehouse.

Datateknik med Spark och servering med SQL

Datadrivna företag måste hålla sina backend- och analyssystem i nästan realtidssynkronisering med kundinriktade program. Effekten av transaktioner måste återspeglas korrekt genom processer från slutpunkt till slutpunkt, relaterade program och OLTP-system (Online Transaction Processing).

I Fabric kan du använda Spark Streaming eller Data Engineering för att kurera dina data. Du kan använda Lakehouse SQL-analysslutpunkten för att verifiera datakvaliteten och för befintliga T-SQL-processer. Detta kan göras i en medaljongarkitektur eller inom flera lager av ditt Lakehouse, som serverar brons, silver, guld eller mellanlagring, kurerade och raffinerade data. Du kan anpassa mappar och tabeller som skapats via Spark för att uppfylla dina datateknik- och affärskrav. När det är klart kan ett lager hantera alla dina underordnade business intelligence-program och andra analysanvändningsfall, utan att kopiera data, använda vyer eller förfina data med hjälp CREATE TABLE AS SELECT av (CTAS), lagrade procedurer och andra DML/DDL-kommandon.

Integrering med Open Lakehouses guldlager

En SQL-analysslutpunkt är inte begränsad till dataanalys i bara Fabric Lakehouse. Med en SQL-analysslutpunkt kan du analysera sjödata i alla sjöhus med hjälp av Synapse Spark, Azure Databricks eller någon annan sjöcentrerad datateknikmotor. Data kan lagras i Azure Data Lake Storage eller Amazon S3.

Den här snäva dubbelriktade integreringen med Fabric Lakehouse är alltid tillgänglig via alla motorer med öppna API:er, Delta-format och naturligtvis T-SQL.

Datavirtualisering av externa datasjöar med genvägar

Du kan använda OneLake-genvägar för att referera till guldmappar i externa Azure Data Lake-lagringskonton som hanteras av Synapse Spark- eller Azure Databricks-motorer, samt alla deltatabeller som lagras i Amazon S3.

Alla mappar som refereras med hjälp av en genväg kan analyseras från en SQL-analysslutpunkt och en SQL-tabell skapas för de refererade data. SQL-tabellen kan användas för att exponera data i externt hanterade datasjöar och aktivera analys på dem.

Den här genvägen fungerar som ett virtuellt lager som kan användas från ett lager för ytterligare krav på nedströmsanalys eller som efterfrågas direkt.

Använd följande steg för att analysera data i externa datasjölagringskonton:

  1. Skapa en genväg som refererar till en mapp i Azure Data Lake Storage eller Amazon S3-kontot. När du har angett anslutningsinformation och autentiseringsuppgifter visas en genväg i Lakehouse.
  2. Växla till SQL-analysslutpunkten för Lakehouse och hitta en SQL-tabell som har ett namn som matchar genvägsnamnet. Den här SQL-tabellen refererar till mappen i mappen ADLS/S3.
  3. Fråga sql-tabellen som refererar till data i ADLS/S3. Tabellen kan användas som vilken annan tabell som helst i SQL-analysslutpunkten. Du kan koppla tabeller som refererar till data i olika lagringskonton.

Kommentar

Om SQL-tabellen inte visas omedelbart i SQL-analysslutpunkten kan du behöva vänta några minuter. SQL-tabellen som refererar till data i ett externt lagringskonto skapas med en fördröjning.

Analysera arkiverade eller historiska data i en datasjö

Datapartitionering är en välkänd optimeringsteknik för dataåtkomst i datasjöar. Partitionerade datauppsättningar lagras i de hierarkiska mappstrukturerna i formatet /year=<year>/month=<month>/day=<day>, där year, monthoch day är partitioneringskolumnerna. På så sätt kan du lagra historiska data logiskt avgränsade i ett format som gör det möjligt för beräkningsmotorer att läsa data efter behov med performant filtrering, jämfört med att läsa hela katalogen och alla mappar och filer som finns i.

Partitionerade data ger snabbare åtkomst om frågorna filtrerar på predikaten som jämför predikatkolumner med ett värde.

En SQL-analysslutpunkt kan enkelt läsa den här typen av data utan att någon konfiguration krävs. Du kan till exempel använda valfritt program för att arkivera data i en datasjö, inklusive SQL Server 2022 eller Azure SQL Managed Instance. När du har partitionerat data och landat dem i en sjö i arkiveringssyfte med externa tabeller kan en SQL-analysslutpunkt läsa partitionerade Delta Lake-tabeller som SQL-tabeller och göra det möjligt för din organisation att analysera dem. Detta minskar den totala ägandekostnaden, minskar dataduplicering och lyser upp stordata, AI och andra analysscenarier.

Datavirtualisering av Infrastrukturdata med genvägar

I Infrastruktur kan du segregera data baserat på komplexa affärs-, geografiska eller regelmässiga krav.

Med en SQL-analysslutpunkt kan du lämna data på plats och fortfarande analysera data i Warehouse eller Lakehouse, även på andra Microsoft Fabric-arbetsytor, via en sömlös virtualisering. Varje Microsoft Fabric Lakehouse lagrar data i OneLake.

Med genvägar kan du referera till mappar på valfri OneLake-plats.

Varje Microsoft Fabric Warehouse lagrar tabelldata i OneLake. Om en tabell endast läggs till exponeras tabelldata som Delta Lake-data i OneLake. Med genvägar kan du referera till mappar i alla OneLake där tabellerna Warehouse exponeras.

Delning och frågor mellan arbetsytor

Arbetsytor gör att du kan separera data baserat på komplexa affärs-, geografiska eller regelmässiga krav, men ibland måste du underlätta delning över dessa rader för specifika analysbehov.

En Lakehouse SQL-analysslutpunkt kan göra det enkelt att dela data mellan avdelningar och användare, där en användare kan ta med sin egen kapacitet och sitt lager. Arbetsytor organiserar avdelningar, affärsenheter eller analysdomäner. Med hjälp av genvägar kan användarna hitta information om warehouse eller Lakehouse. Användare kan omedelbart utföra sina egna anpassade analyser från samma delade data. Förutom att hjälpa till med avdelningsbaserade återbetalningar och användningsallokering är detta även en nollkopieringsversion av data.

SQL-analysslutpunkten möjliggör frågekörning av valfri tabell och enkel delning. De tillagda kontrollerna för arbetsyteroller och säkerhetsroller som kan läggas ytterligare i lager för att uppfylla ytterligare affärskrav.

Använd följande steg för att aktivera dataanalys mellan arbetsytor:

  1. Skapa en OneLake-genväg som refererar till en tabell eller en mapp på en arbetsyta som du kan komma åt.
  2. Välj en Lakehouse eller Warehouse som innehåller en tabell eller en Delta Lake-mapp som du vill analysera. När du har valt en tabell/mapp visas en genväg i Lakehouse.
  3. Växla till SQL-analysslutpunkten för Lakehouse och leta reda på DEN SQL-tabell som har ett namn som matchar genvägsnamnet. Den här SQL-tabellen refererar till mappen på en annan arbetsyta.
  4. Fråga sql-tabellen som refererar till data på en annan arbetsyta. Tabellen kan användas som vilken annan tabell som helst i SQL-analysslutpunkten. Du kan ansluta tabellerna som refererar till data på olika arbetsytor.

Kommentar

Om SQL-tabellen inte visas omedelbart i SQL-analysslutpunkten kan du behöva vänta några minuter. SQL-tabellen som refererar till data på en annan arbetsyta skapas med en fördröjning.

Analysera partitionerade data

Datapartitionering är en välkänd optimeringsteknik för dataåtkomst i datasjöar. Partitionerade datauppsättningar lagras i de hierarkiska mappstrukturerna i formatet /year=<year>/month=<month>/day=<day>, där year, monthoch day är partitioneringskolumnerna. Partitionerade datauppsättningar ger snabbare dataåtkomst om frågorna filtrerar data med hjälp av predikaten som filtrerar data genom att jämföra predikatkolumner med ett värde.

En SQL-analysslutpunkt kan representera partitionerade Delta Lake-datauppsättningar som SQL-tabeller och göra det möjligt för dig att analysera dem.