Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Het eindpunt voor SQL-analyse is een voor lezen geoptimaliseerde T-SQL-laag op basis van Delta-gegevens in Microsoft Fabric. In dit artikel wordt de workload Fabric datawarehousing uitgelegd met het SQL-analyse-eindpunt van Lakehouse en scenario's voor het gebruik van Lakehouse in datawarehousing.
Wat is een Lakehouse SQL Analytics-eindpunt?
Met het SQL Analytics-eindpunt kunt u query's uitvoeren op gegevens in Lakehouse met behulp van het T-SQL-taal- en TDS-protocol.
- Met het SQL-analyse-eindpunt worden Delta-tabellen uit Lakehouse weergegeven als SQL-tabellen die u kunt opvragen met T-SQL.
- Elke deltatabel uit een Lakehouse wordt weergegeven als één tabel. Gegevens moeten een delta-indeling hebben.
- Elk Lakehouse heeft één SQL-analyse-eindpunt en elke werkruimte kan meer dan één Lakehouse hebben. Het aantal SQL Analytics-eindpunten in een werkruimte komt overeen met het aantal Lakehouse-items.
U hoeft geen SQL-analyse-eindpunt te maken in Microsoft Fabric. Er wordt automatisch een SQL-analyse-eindpunt gemaakt voor elke lakehouse-, database- of gespiegelde database. Een SQL-analyse-eindpunt fungeert als een lichtgewicht datawarehousingmogelijkheid voor hun bovenliggende items, die een aanvulling vormen op de lakehouse-architectuur van het magazijn. Met deze architectuur kunnen Spark of Fabric mirroring gegevens aansturen in een mapstructuur in de lakehouse die het SQL Analytics-eindpunt kan inzien.
Note
Achter de schermen gebruikt het SQL-analyse-eindpunt dezelfde engine als het warehouse om SQL-query's met hoge prestaties en lage latentie te leveren.
Automatische detectie van metagegevens
Een naadloos proces leest de Delta-logboeken uit de /Tables map en zorgt ervoor dat SQL-metagegevens voor tabellen, zoals statistieken, altijd up-to-date zijn. Er is geen gebruikersactie nodig en u hoeft geen gegevens te importeren, te kopiëren of een infrastructuur in te stellen. Zie Automatisch gegenereerd schema in het SQL Analytics-eindpunt voor meer informatie.
Scenario's die Lakehouse mogelijk maakt voor datawarehousing
In Fabric bieden we één magazijn aan.
Het Lakehouse, met het SQL-analyse-eindpunt, mogelijk gemaakt door het warehouse, kan de traditionele beslissingsstructuur van batch-, streaming- of lambda-architectuurpatronen vereenvoudigen. Samen met een magazijn maakt het lakehouse veel scenario's voor additieve analyse mogelijk. In deze sectie wordt beschreven hoe u een Lakehouse gebruikt in combinatie met een warehouse voor een best of breedanalysestrategie.
Analyse met de gouden laag van uw Fabric Lakehouse
Een bekende strategie voor lake data-organisatie is medaille-architectuur. Deze strategie organiseert bestanden in onbewerkte (brons), geconsolideerde (zilver) en verfijnde (gouden) lagen. U kunt een SQL-analyse-eindpunt gebruiken om gegevens in de gouden laag van de medaillonarchitectuur te analyseren als de bestanden zijn opgeslagen in Delta Lake-indeling, zelfs als ze buiten Microsoft Fabric OneLake zijn opgeslagen.
Gebruik OneLake-snelkoppelingen om te verwijzen naar gold-mappen in externe Azure Data Lake-opslagaccounts die worden beheerd door Synapse Spark of de Azure Databricks-engines.
U kunt ook magazijnen toevoegen als onderwerp- of domeingerichte oplossingen voor specifieke onderwerpen die op maat gemaakte analysevereisten kunnen hebben.
Als u ervoor kiest om uw gegevens in Fabric te bewaren, worden deze always geopend en toegankelijk via API's, Delta-indeling en natuurlijk T-SQL.
Query's uitvoeren als een service voor uw deltatabellen vanuit Lakehouse en andere items uit OneLake
Analisten, gegevenswetenschappers en data engineers moeten mogelijk query's uitvoeren op gegevens in een data lake. In Fabric is deze end-to-end-ervaring volledig SaaSified.
OneLake is één, geïntegreerde, logische data lake voor de hele organisatie. OneLake is OneDrive voor gegevens. OneLake kan meerdere werkruimten bevatten, bijvoorbeeld in uw organisatieafdelingen. Elk item in Fabric maakt gegevens toegankelijk via OneLake.
Gegevens in een Microsoft Fabric Lakehouse worden fysiek opgeslagen in OneLake met de volgende mapstructuur:
- De
/Filesmap bevat onbewerkte en niet-geconsolidateerde (bronzen) bestanden die data engineers moeten verwerken voordat ze worden geanalyseerd. De bestanden hebben mogelijk verschillende indelingen, zoals CSV, Parquet, verschillende typen afbeeldingen en meer. - De
/Tablesmap bevat verfijnde en geconsolideerde (gouden) gegevens die gereed zijn voor bedrijfsanalyse. De geconsolideerde gegevens hebben een Delta Lake-indeling.
Een SQL Analytics-eindpunt kan gegevens lezen in de /tables map in OneLake. Analyse is net zo eenvoudig als het uitvoeren van query's op het SQL Analytics-eindpunt van Lakehouse. Samen met het warehouse krijgt u ook query's tussen databases en de mogelijkheid om naadloos over te schakelen van alleen-lezenquery's tot het bouwen van extra bedrijfslogica op basis van uw OneLake-gegevens met Fabric Data Warehouse.
Data-engineer met Spark en serveren met SQL
Gegevensgestuurde ondernemingen moeten hun back-end- en analysesystemen in bijna realtime synchroniseren met klantgerichte toepassingen. De impact van transacties moet nauwkeurig worden weergegeven via end-to-end processen, gerelateerde toepassingen en OLTP-systemen (Online Transaction Processing).
In Fabric kunt u Spark Streaming of Data-engineer gebruiken om uw gegevens te cureren. U kunt het Lakehouse SQL-analyse-eindpunt gebruiken om de gegevenskwaliteit en voor bestaande T-SQL-processen te valideren. Dit kan worden gedaan in een medaillonarchitectuur of binnen meerdere lagen van uw Lakehouse, waarbij het brons, zilver, goud of de fasering, gecureerde, en verfijnde data levert. U kunt de mappen en tabellen die zijn gemaakt met Spark aanpassen om te voldoen aan uw vereisten voor data engineering en bedrijf. Wanneer u klaar bent, kan een Warehouse al uw downstream business intelligence-toepassingen en andere analytische toepassingen ondersteunen, zonder datakopieën te maken, met behulp van weergaven of door gegevens te verfijnen met behulp van CREATE TABLE AS SELECT (CTAS), opgeslagen procedures en andere DML-/DDL-opdrachten.
Integratie met de gouden laag van uw Open Lakehouse
Een SQL-analyse-eindpunt is niet beperkt tot gegevensanalyse in alleen de Fabric Lakehouse. Met behulp van een SQL-analyse-eindpunt kunt u lake-gegevens in elk lakehouse analyseren met behulp van Synapse Spark, Azure Databricks of een andere lake-centric data engineering-engine. U kunt de gegevens opslaan in Azure Data Lake Storage of Amazon S3.
U hebt altijd toegang tot deze nauwe, bidirectionele integratie met de Fabric Lakehouse via elke engine met behulp van open API's, de Delta-indeling en natuurlijk T-SQL.
Gegevensvirtualisatie van externe gegevensmeren met snelkoppelingen
Gebruik OneLake shortcuts om te verwijzen naar gouden mappen in externe Azure Data Lake opslagaccounts die synapse Spark of Azure Databricks engines beheren, evenals een deltatabel die is opgeslagen in Amazon S3.
U kunt elke map analyseren waarnaar wordt verwezen door een snelkoppeling van een SQL-analyse-eindpunt en een SQL-tabel maken voor de gegevens waarnaar wordt verwezen. Gebruik de SQL-tabel om gegevens beschikbaar te maken in extern beheerde data lakes en om er analyses op in te schakelen.
Deze snelkoppeling fungeert als een virtueel magazijn dat u vanuit een magazijn kunt gebruiken voor aanvullende downstreamanalysevereisten of rechtstreeks query's kunt uitvoeren.
Als u gegevens in externe Data Lake Storage-accounts wilt analyseren, gebruikt u de volgende stappen:
- Maak een snelkoppeling die verwijst naar een map in Azure Data Lake Storage of Amazon S3-account. Nadat u verbindingsgegevens en aanmeldingsgegevens hebt ingevoerd, wordt een snelkoppeling weergegeven in het Lakehouse.
- Ga naar het SQL analytics-eindpunt van de Lakehouse en zoek een SQL-tabel waarvan de naam overeenkomt met de snelkoppeling. Deze SQL-tabel verwijst naar de map in ADLS of S3.
- Voer een query uit op de SQL-tabel die verwijst naar gegevens in ADLS of S3. Gebruik de tabel zoals elke andere tabel in het SQL Analytics-eindpunt. U kunt tabellen samenvoegen die verwijzen naar gegevens in verschillende opslagaccounts.
Note
Als de SQL-tabel niet onmiddellijk wordt weergegeven in het SQL Analytics-eindpunt, wacht u enkele minuten. De SQL-tabel die verwijst naar gegevens in een extern opslagaccount, wordt met een vertraging gemaakt.
Gearchiveerde of historische gegevens analyseren in een data lake
Gegevenspartitionering is een bekende optimalisatietechniek voor gegevenstoegang in Data Lakes. Sla gepartitioneerde gegevenssets op in hiërarchische mapstructuren in de indeling/year=<year>/month=<month>/day=<day>, waarbij yearmonth, en day de partitioneringskolommen zijn. Deze structuur houdt historische gegevens logisch gescheiden en stelt rekenprogramma's in staat om de gegevens zo nodig te lezen met performant filteren, in plaats van de hele map en alle mappen en bestanden in te lezen.
Gepartitioneerde gegevens maken snellere toegang mogelijk als de query's filteren op de predicaten die predicaatkolommen vergelijken met een waarde.
Een SQL Analytics-eindpunt kan dit type gegevens eenvoudig lezen zonder dat hiervoor een configuratie is vereist. U kunt bijvoorbeeld elke toepassing gebruiken om gegevens te archiveren in een data lake, waaronder SQL Server 2022 of Azure SQL Managed Instance. Nadat u gegevens hebt gepartitioneerd en in een lake hebt geplaatst voor archiveringsdoeleinden met behulp van externe tabellen, kan een SQL Analytics-eindpunt gepartitioneerde Delta Lake-tabellen lezen als SQL-tabellen en uw organisatie deze laten analyseren. Deze aanpak vermindert de totale eigendomskosten en gegevensduplicatie en maakt big data-, AI- en andere analysescenario’s mogelijk.
U kunt ook query's voor tijdreizen gebruiken om snel query's uit te voeren op eerdere versies van gegevens. Tijdreizen is een voordelige en efficiënte mogelijkheid om een query uit te voeren op de eerdere statussen van gegevens met T-SQL-query's. Voor een Lakehouse SQL-analyse-eindpunt wordt tijdreizen beperkt door vacuümretentie-instellingen. Zie Zo doet u dat: query’s uitvoeren met time travel op statementniveau om aan de slag te gaan.
Gegevensvirtualisatie van Fabric-gegevens met snelkoppelingen
In Fabric kunt u met werkruimten gegevens scheiden op basis van complexe zakelijke, geografische of wettelijke vereisten.
Met een SQL-analyse-eindpunt kunt u de gegevens op hun plaats laten en nog steeds gegevens analyseren in het warehouse of Lakehouse, zelfs in andere Microsoft Fabric-werkruimten, via een naadloze virtualisatie. Elke Microsoft Fabric Lakehouse slaat gegevens op in OneLake.
Met snelkoppelingen kunt u verwijzen naar mappen op elke OneLake-locatie.
Elke Microsoft Fabric Warehouse slaat tabelgegevens op in OneLake. Als een tabel alleen voor toevoegingen is, worden de tabelgegevens weergegeven als Delta Lake-gegevens in OneLake. Met snelkoppelingen kunt u verwijzen naar mappen in oneLake waar de magazijntabellen worden weergegeven.
Delen en query's uitvoeren op meerdere werkruimten
Hoewel u met werkruimten gegevens kunt scheiden op basis van complexe zakelijke, geografische of wettelijke vereisten, moet u soms het delen tussen deze afdelingen vergemakkelijken voor specifieke analyses.
Een Lakehouse SQL-analyse-eindpunt kan het eenvoudig delen van gegevens tussen afdelingen en gebruikers mogelijk maken, waarbij een gebruiker zijn eigen capaciteit en magazijn kan meenemen. Werkruimten organiseren afdelingen, bedrijfseenheden of analytische domeinen. Met behulp van snelkoppelingen kunnen gebruikers alle gegevens van Warehouse of Lakehouse vinden. Gebruikers kunnen direct hun eigen aangepaste analyses uitvoeren op basis van dezelfde gedeelde gegevens. Deze aanpak helpt niet alleen bij het doorbelasten van kosten aan afdelingen en gebruiksallocatie, maar is ook een zero-copyversie van de data.
Met het SQL Analytics-eindpunt kunt u query's uitvoeren op elke tabel en eenvoudig delen. U kunt besturingselementen toevoegen met behulp van werkruimterollen en beveiligingsrollen om te voldoen aan aanvullende bedrijfsvereisten.
Als u gegevensanalyse tussen werkruimten wilt inschakelen, gebruikt u de volgende stappen:
- Maak een OneLake-snelkoppeling die verwijst naar een tabel of map in een werkruimte waartoe u toegang hebt.
- Kies een Lakehouse of Warehouse dat een tabel of Delta Lake-map bevat die u wilt analyseren. Wanneer u een tabel of map selecteert, verschijnt er een snelkoppeling in het Lakehouse.
- Ga naar het SQL-analyse-eindpunt van Lakehouse en zoek de SQL-tabel met een naam die overeenkomt met de naam van de snelkoppeling. Deze SQL-tabel verwijst naar de map in een andere werkruimte.
- Voer een query uit op de SQL-tabel die verwijst naar gegevens in een andere werkruimte. U kunt de tabel gebruiken zoals elke andere tabel in het SQL Analytics-eindpunt. U kunt de tabellen koppelen die verwijzen naar gegevens in verschillende werkruimten.
Voor meer informatie over beveiliging in het SQL Analytics-eindpunt, zie OneLake-beveiliging voor SQL Analytics-eindpunten.
Note
Als de SQL-tabel niet onmiddellijk wordt weergegeven in het SQL Analytics-eindpunt, wacht u enkele minuten. De SQL-tabel die verwijst naar gegevens in een andere werkruimte, wordt met een vertraging gemaakt.
Gepartitioneerde gegevens analyseren
Gegevenspartitionering is een bekende optimalisatietechniek voor gegevenstoegang in Data Lakes. U slaat gepartitioneerde gegevenssets op in hiërarchische mapstructuren in de indeling/year=<year>/month=<month>/day=<day>, waarbij yearmonth, en day zijn de partitioneringskolommen. Gepartitioneerde gegevenssets maken snellere gegevenstoegang mogelijk als de query's gebruikmaken van predicaten die gegevens filteren door predicaatkolommen te vergelijken met een waarde.
Een SQL-analyse-eindpunt kan gepartitioneerde Delta Lake-gegevenssets vertegenwoordigen als SQL-tabellen en u in staat stellen deze te analyseren.
Zie Query's uitvoeren op externe Data Lake-bestanden met behulp van Fabric Data Warehouse of SQL Analytics-eindpunt voor meer informatie en voorbeelden over het uitvoeren van query's op externe gegevens. Zie Gepartitioneerde gegevens opvragen voor een voorbeeld en een gebruikssituatie voor het uitvoeren van query's op gepartitioneerde Parquet-bestanden.
Gegevens analyseren in Lakehouse, Warehouse of Eventhouse
De hoofdpagina's van Lakehouse en Warehouse bevatten het Eventhouse-eindpunt als onderdeel van het menu Gegevens analyseren . Het Eventhouse-eindpunt biedt een door Eventhouse aangedreven query-ervaring rechtstreeks boven op Lakehouse- en Warehouse-gegevens, zonder gegevensduplicatie of handmatige synchronisatie.
Wanneer u het Eventhouse-eindpunt inschakelt, worden een Eventhouse en een KQL-database automatisch gemaakt als onderliggende items van de bron Lakehouse of Warehouse, waarbij schemasynchronisatie op de achtergrond wordt verwerkt. Het eindpunt weerspiegelt altijd het huidige schema van de brongegevens, waardoor bijna realtime analytische toegang mogelijk is.
Deze integratie maakt Eventhouse een natuurlijke uitbreiding van de gegevensbron, in plaats van een afzonderlijk systeem dat u moet instellen en beheren. Zie Eventhouse-eindpunt inschakelen voor Lakehouse en warehouse voor meer informatie over het Eventhouse-eindpunt.
Verwante inhoud
- Wat is een lakehouse in Microsoft Fabric?
- Beslissingshandleiding voor Microsoft Fabric: Kiezen tussen Warehouse en Lakehouse
- Breng uw gegevens naar OneLake met Lakehouse
- Semantische Power BI-modellen in Microsoft Fabric
- Opties voor het ophalen van gegevens in Fabric Lakehouse
- Gegevens kopiëren met behulp van kopieeractiviteit
- Gegevens verplaatsen van Azure SQL DB naar Lakehouse via kopieerassistent
- Connectiviteit met datawarehousing in Microsoft Fabric
- SQL Analytics-eindpunt van het lakehouse
- Query's uitvoeren op het SQL Analytics-eindpunt of -warehouse in Microsoft Fabric