Share via


Beter samen: het lakehouse en magazijn

Van toepassing op: SQL Analytics-eindpunt en -magazijn in Microsoft Fabric

In dit artikel wordt de workload voor datawarehousing uitgelegd met het SQL-analyse-eindpunt van Lakehouse en scenario's voor het gebruik van Lakehouse in datawarehousing.

Wat is een Lakehouse SQL Analytics-eindpunt?

Wanneer u in Fabric een lakehouse maakt, wordt automatisch een magazijn gemaakt.

Met het SQL Analytics-eindpunt kunt u query's uitvoeren op gegevens in Lakehouse met behulp van de T-SQL-taal en het TDS-protocol. Elk Lakehouse heeft één SQL-analyse-eindpunt en elke werkruimte kan meer dan één Lakehouse hebben. Het aantal SQL Analytics-eindpunten in een werkruimte komt overeen met het aantal Lakehouse-items.

  • Het SQL Analytics-eindpunt wordt automatisch gegenereerd voor elk Lakehouse en toont Delta-tabellen uit Lakehouse als SQL-tabellen waarop query's kunnen worden uitgevoerd met behulp van de T-SQL-taal.
  • Elke deltatabel uit een Lakehouse wordt weergegeven als één tabel. Gegevens moeten een delta-indeling hebben.
  • Het standaard semantische Power BI-model wordt gemaakt voor elk SQL-analyse-eindpunt en volgt de naamconventie van de Lakehouse-objecten.

U hoeft geen SQL-analyse-eindpunt te maken in Microsoft Fabric. Microsoft Fabric-gebruikers kunnen geen SQL Analytics-eindpunt maken in een werkruimte. Er wordt automatisch een SQL-analyse-eindpunt gemaakt voor elk Lakehouse. Als u een SQL-analyse-eindpunt wilt ophalen, maakt u een lakehouse en wordt er automatisch een SQL-analyse-eindpunt gemaakt voor Lakehouse.

Notitie

Achter de schermen gebruikt het SQL Analytics-eindpunt dezelfde engine als het warehouse om SQL-query's met hoge prestaties en lage latentie te leveren.

Automatische detectie van metagegevens

Een naadloos proces leest de deltalogboeken en vanuit de map bestanden en zorgt ervoor dat SQL-metagegevens voor tabellen, zoals statistieken, altijd up-to-date zijn. Er is geen gebruikersactie nodig en u hoeft geen gegevens te importeren, te kopiëren of een infrastructuur in te stellen. Zie Automatisch gegenereerd schema in het SQL Analytics-eindpunt voor meer informatie.

Scenario's die Lakehouse mogelijk maakt voor datawarehousing

In Fabric bieden we één magazijn aan.

Het Lakehouse, met het SQL-analyse-eindpunt, mogelijk gemaakt door het warehouse, kan de traditionele beslissingsstructuur van batch-, streaming- of lambda-architectuurpatronen vereenvoudigen. Samen met een magazijn maakt het lakehouse veel scenario's voor additieve analyse mogelijk. In deze sectie wordt beschreven hoe u een Lakehouse gebruikt in combinatie met een warehouse voor een best of breedanalysestrategie.

Analyse met de gouden laag van uw Fabric Lakehouse

Een van de bekende strategieën voor lake data organization is een medaillestructuur waarin de bestanden zijn georganiseerd in onbewerkte (brons), geconsolideerde (zilver) en verfijnde (gouden) lagen. Een SQL-analyse-eindpunt kan worden gebruikt voor het analyseren van gegevens in de gouden laag van demedalarchitectuur als de bestanden zijn opgeslagen in Delta Lake indeling, zelfs als ze buiten de Microsoft Fabric OneLake zijn opgeslagen.

U kunt OneLake-snelkoppelingen gebruiken om te verwijzen naar gouden mappen in externe Azure Data Lake-opslagaccounts die worden beheerd door Synapse Spark- of Azure Databricks-engines.

Magazijnen kunnen ook worden toegevoegd als onderwerp- of domeingerichte oplossingen voor specifieke onderwerpen die op maat gemaakte analysevereisten kunnen hebben.

Als u ervoor kiest om uw gegevens in Fabric te bewaren, zijn deze altijd geopend en toegankelijk via API's, Delta-indeling en natuurlijk T-SQL.

Query's uitvoeren als een service voor uw deltatabellen vanuit Lakehouse en andere items uit OneLake-gegevenshub

Er zijn gebruiksscenario's waarbij een analist, data scientist of data engineer mogelijk query's moet uitvoeren op gegevens in een data lake. In Fabric is deze end-to-end-ervaring volledig SaaSified.

OneLake is één, geïntegreerde, logische data lake voor de hele organisatie. OneLake is OneDrive voor gegevens. OneLake kan meerdere werkruimten bevatten, bijvoorbeeld in uw organisatieafdelingen. Elk item in Fabric maakt het gegevens toegankelijk via OneLake.

Gegevens in een Microsoft Fabric Lakehouse worden fysiek opgeslagen in OneLake met de volgende mapstructuur:

  • De /Files map bevat onbewerkte en niet-geconsolidateerde (bronzen) bestanden die moeten worden verwerkt door data engineers voordat ze worden geanalyseerd. De bestanden hebben mogelijk verschillende indelingen, zoals CSV, Parquet, verschillende typen afbeeldingen, enzovoort.
  • De /Tables map bevat verfijnde en geconsolideerde (goud) gegevens die gereed zijn voor bedrijfsanalyse. De geconsolideerde gegevens hebben een Delta Lake-indeling.

Een SQL Analytics-eindpunt kan gegevens lezen in de /tables map in OneLake. Analyse is net zo eenvoudig als het uitvoeren van query's op het SQL Analytics-eindpunt van Lakehouse. Samen met het warehouse krijgt u ook query's voor meerdere databases en de mogelijkheid om naadloos over te schakelen van alleen-lezenquery's tot het bouwen van extra bedrijfslogica boven op uw OneLake-gegevens met Synapse Data Warehouse.

Data-engineer met Spark en serveren met SQL

Gegevensgestuurde ondernemingen moeten hun back-end- en analysesystemen in bijna realtime synchroniseren met klantgerichte toepassingen. De impact van transacties moet nauwkeurig worden weergegeven via end-to-end processen, gerelateerde toepassingen en OLTP-systemen (Online Transaction Processing).

In Fabric kunt u Spark Streaming of Data-engineer gebruiken om uw gegevens te cureren. U kunt het Lakehouse SQL-analyse-eindpunt gebruiken om de gegevenskwaliteit en voor bestaande T-SQL-processen te valideren. Dit kan worden gedaan in een medaille-architectuur of binnen meerdere lagen van uw Lakehouse, die brons, zilver, goud of fasering, gecureerde en verfijnde gegevens levert. U kunt de mappen en tabellen die zijn gemaakt met Spark aanpassen om te voldoen aan uw vereisten voor data engineering en bedrijf. Wanneer u klaar bent, kan een warehouse al uw downstream business intelligence-toepassingen en andere gebruiksscenario's voor analyse leveren, zonder gegevens te kopiëren, met behulp van weergaven of het verfijnen van gegevens met behulp CREATE TABLE AS SELECT van (CTAS), opgeslagen procedures en andere DML-/DDL-opdrachten.

Integratie met de gouden laag van uw Open Lakehouse

Een SQL-analyse-eindpunt is niet gericht op gegevensanalyses in alleen Fabric Lakehouse. Met een SQL-analyse-eindpunt kunt u lake-gegevens analyseren in een lakehouse, met behulp van Synapse Spark, Azure Databricks of een andere lake-centric data engineering-engine. De gegevens kunnen worden opgeslagen in Azure Data Lake Storage of Amazon S3.

Deze nauwe, bidirectionele integratie met Fabric Lakehouse is altijd toegankelijk via elke engine met open API's, de Delta-indeling en natuurlijk T-SQL.

Gegevensvirtualisatie van externe data lakes met snelkoppelingen

U kunt OneLake-snelkoppelingen gebruiken om te verwijzen naar gouden mappen in externe Azure Data Lake-opslagaccounts die worden beheerd door Synapse Spark- of Azure Databricks-engines, evenals elke deltatabel die is opgeslagen in Amazon S3.

Elke map waarnaar wordt verwezen met behulp van een snelkoppeling, kan worden geanalyseerd vanuit een SQL Analytics-eindpunt en er wordt een SQL-tabel gemaakt voor de gegevens waarnaar wordt verwezen. De SQL-tabel kan worden gebruikt voor het beschikbaar maken van gegevens in extern beheerde data lakes en het inschakelen van analyses.

Deze snelkoppeling fungeert als een virtueel magazijn dat kan worden gebruikt vanuit een magazijn voor aanvullende downstreamanalysevereisten of die rechtstreeks worden opgevraagd.

Gebruik de volgende stappen om gegevens in externe Data Lake Storage-accounts te analyseren:

  1. Maak een snelkoppeling die verwijst naar een map in Azure Data Lake Storage of Amazon S3-account. Zodra u verbindingsgegevens en referenties hebt ingevoerd, wordt er een snelkoppeling weergegeven in Lakehouse.
  2. Ga naar het EINDPUNT van SQL Analytics van Lakehouse en zoek een SQL-tabel met een naam die overeenkomt met de naam van de snelkoppeling. Deze SQL-tabel verwijst naar de map in de map ADLS/S3.
  3. Voer een query uit op de SQL-tabel die verwijst naar gegevens in ADLS/S3. De tabel kan worden gebruikt als elke andere tabel in het SQL Analytics-eindpunt. U kunt tabellen samenvoegen die verwijzen naar gegevens in verschillende opslagaccounts.

Notitie

Als de SQL-tabel niet onmiddellijk wordt weergegeven in het SQL Analytics-eindpunt, moet u mogelijk enkele minuten wachten. De SQL-tabel die verwijst naar gegevens in een extern opslagaccount, wordt met een vertraging gemaakt.

Gearchiveerde of historische gegevens analyseren in een data lake

Gegevenspartitionering is een bekende optimalisatietechniek voor gegevenstoegang in Data Lakes. Gepartitioneerde gegevenssets worden opgeslagen in de hiërarchische mappenstructuren in de indeling /year=<year>/month=<month>/day=<day>, waarbij year, monthen day de partitioneringskolommen zijn. Hiermee kunt u historische gegevens logisch gescheiden opslaan in een indeling waarmee rekenprogramma's de gegevens naar behoefte kunnen lezen met performant filteren, versus het lezen van de hele map en alle mappen en bestanden in de map.

Gepartitioneerde gegevens maken snellere toegang mogelijk als de query's filteren op de predicaten die predicaatkolommen vergelijken met een waarde.

Een SQL Analytics-eindpunt kan dit type gegevens eenvoudig lezen zonder dat hiervoor een configuratie is vereist. U kunt bijvoorbeeld elke toepassing gebruiken om gegevens te archiveren in een data lake, waaronder SQL Server 2022 of Azure SQL Managed Instance. Nadat u gegevens partitioneert en in een lake hebt geplaatst voor archiveringsdoeleinden met externe tabellen, kan een SQL Analytics-eindpunt gepartitioneerde Delta Lake-tabellen lezen als SQL-tabellen en uw organisatie deze laten analyseren. Dit vermindert de totale eigendomskosten, vermindert gegevensduplicatie en verlicht big data, AI, andere analysescenario's.

Gegevensvirtualisatie van Fabric-gegevens met snelkoppelingen

In Fabric kunt u met werkruimten gegevens scheiden op basis van complexe zakelijke, geografische of wettelijke vereisten.

Met een SQL-analyse-eindpunt kunt u de gegevens op hun plaats laten en nog steeds gegevens analyseren in het warehouse of Lakehouse, zelfs in andere Microsoft Fabric-werkruimten, via een naadloze virtualisatie. Elke Microsoft Fabric Lakehouse slaat gegevens op in OneLake.

Met snelkoppelingen kunt u verwijzen naar mappen op elke OneLake-locatie.

Elke Microsoft Fabric Warehouse slaat tabelgegevens op in OneLake. Als een tabel alleen toevoegt, worden de tabelgegevens weergegeven als Delta Lake-gegevens in OneLake. Met snelkoppelingen kunt u verwijzen naar mappen in oneLake waar de magazijntabellen worden weergegeven.

Delen en query's uitvoeren op meerdere werkruimten

Hoewel u met werkruimten gegevens kunt scheiden op basis van complexe zakelijke, geografische of wettelijke vereisten, moet u soms het delen tussen deze regels vergemakkelijken voor specifieke analysebehoeften.

Een Lakehouse SQL-analyse-eindpunt kan het eenvoudig delen van gegevens tussen afdelingen en gebruikers mogelijk maken, waarbij een gebruiker zijn eigen capaciteit en magazijn kan meenemen. Werkruimten organiseren afdelingen, bedrijfseenheden of analytische domeinen. Met behulp van snelkoppelingen kunnen gebruikers alle gegevens van Warehouse of Lakehouse vinden. Gebruikers kunnen direct hun eigen aangepaste analyses uitvoeren op basis van dezelfde gedeelde gegevens. Naast het helpen bij het terugstorten van afdelingen en gebruikstoewijzing, is dit ook een versie zonder kopie van de gegevens.

Met het SQL Analytics-eindpunt kunt u query's uitvoeren op elke tabel en eenvoudig delen. De toegevoegde besturingselementen van werkruimterollen en beveiligingsrollen die verder kunnen worden gelaagd om te voldoen aan aanvullende bedrijfsvereisten.

Gebruik de volgende stappen om gegevensanalyses tussen werkruimten in te schakelen:

  1. Maak een OneLake-snelkoppeling die verwijst naar een tabel of map in een werkruimte waartoe u toegang hebt.
  2. Kies een Lakehouse- of Warehouse-map die een tabel of Delta Lake-map bevat die u wilt analyseren. Wanneer u een tabel/map selecteert, wordt er een snelkoppeling weergegeven in Lakehouse.
  3. Ga naar het SQL-analyse-eindpunt van Lakehouse en zoek de SQL-tabel met een naam die overeenkomt met de naam van de snelkoppeling. Deze SQL-tabel verwijst naar de map in een andere werkruimte.
  4. Voer een query uit op de SQL-tabel die verwijst naar gegevens in een andere werkruimte. De tabel kan worden gebruikt als elke andere tabel in het SQL Analytics-eindpunt. U kunt de tabellen koppelen die verwijzen naar gegevens in verschillende werkruimten.

Notitie

Als de SQL-tabel niet onmiddellijk wordt weergegeven in het SQL Analytics-eindpunt, moet u mogelijk enkele minuten wachten. De SQL-tabel die verwijst naar gegevens in een andere werkruimte, wordt met een vertraging gemaakt.

Gepartitioneerde gegevens analyseren

Gegevenspartitionering is een bekende optimalisatietechniek voor gegevenstoegang in Data Lakes. Gepartitioneerde gegevenssets worden opgeslagen in de hiërarchische mappenstructuren in de indeling /year=<year>/month=<month>/day=<day>, waarbij year, monthen day de partitioneringskolommen zijn. Gepartitioneerde gegevenssets maken snellere gegevenstoegang mogelijk als de query's gegevens filteren met behulp van de predicaten die gegevens filteren door predicaatkolommen te vergelijken met een waarde.

Een SQL-analyse-eindpunt kan gepartitioneerde Delta Lake-gegevenssets vertegenwoordigen als SQL-tabellen en u in staat stellen deze te analyseren.