Zelfstudie: Een notebook gebruiken met Apache Spark om een query uit te voeren op een KQL-database

Artikel
17/01/2025

Notebooks zijn zowel leesbare documenten met beschrijvingen van gegevensanalyses en resultaten als uitvoerbare documenten die kunnen worden uitgevoerd om gegevensanalyse uit te voeren. In dit artikel leert u hoe u een Microsoft Fabric-notebook gebruikt om gegevens te lezen en te schrijven naar een KQL-database met behulp van Apache Spark. In deze zelfstudie worden vooraf gemaakte gegevenssets en notebooks gebruikt in zowel realtime intelligence als de Data-engineer omgevingen in Microsoft Fabric. Zie Microsoft Fabric-notebooks gebruiken voor meer informatie over notebooks.

U leert met name het volgende:

Een KQL-database maken
Een notebook importeren
Gegevens schrijven naar een KQL-database met apache Spark
Query's uitvoeren op gegevens uit een KQL-database

Vereisten

Een werkruimte met een Capaciteit met Microsoft Fabric

1- Een KQL-database maken

Selecteer uw werkruimte in de linkernavigatiebalk.
Volg een van deze stappen om een eventstream te maken:
- Selecteer Nieuw item en Eventhouse. Voer in het veld Eventhouse-naamnycGreenTaxi-in en selecteer vervolgens maken. Er wordt een KQL-database met dezelfde naam gegenereerd.
- Selecteer in een bestaand eventhouse Databases. Selecteer onder KQL-databases+in het veld KQL-databasenaamnycGreenTaxi-en selecteer vervolgens maken.
Kopieer de query-URI van de databasegegevenskaart in het databasedashboard en plak deze ergens, zoals een kladblok, om in een latere stap te gebruiken.

2- Download het NYC GreenTaxi-notebook

We hebben een voorbeeldnotebook gemaakt waarmee u alle benodigde stappen voor het laden van gegevens in uw database doorloopt met behulp van de Spark-connector.

Open de opslagplaats fabric-voorbeelden op GitHub om het NYC GreenTaxi KQL-notebook te downloaden.
Sla het notitieblok lokaal op uw apparaat op.

Notitie

Het notitieblok moet worden opgeslagen in de .ipynb bestandsindeling.

3- Het notebook importeren

De rest van deze werkstroom vindt plaats in de Data-engineer sectie van het product en gebruikt een Spark-notebook om gegevens in uw KQL-database te laden en er query's op uit te voeren.

Selecteer in uw werkruimte Import>Notebook>vanaf deze computer>Upload en vervolgens kiest u het NYC GreenTaxi-notitieblok dat u in een vorige stap hebt gedownload.
Zodra het importeren is voltooid, opent u het notebook vanuit uw werkruimte.

4- Gegevens ophalen

Als u een query wilt uitvoeren op uw database met behulp van de Spark-connector, moet u lees- en schrijftoegang geven tot de NYC GreenTaxi-blobcontainer.

Selecteer de afspeelknop om de volgende cellen uit te voeren of selecteer de cel en druk op Shift+Enter. Herhaal deze stap voor elke codecel.

Notitie

Wacht totdat het voltooiingscontrolemarkering wordt weergegeven voordat de volgende cel wordt uitgevoerd.

Voer de volgende cel uit om toegang tot de NYC GreenTaxi-blobcontainer in te schakelen.
Plak in KustoURI de query-URI die u eerder hebt gekopieerd in plaats van de tekst van de tijdelijke aanduiding.
Wijzig de naam van de tijdelijke aanduiding voor de database in nycGreenTaxi.
Wijzig de tabelnaam van de tijdelijke aanduiding in GreenTaxiData.
Voer de cel uit.
Voer de volgende cel uit om gegevens naar uw database te schrijven. Het kan enkele minuten duren voordat deze stap is voltooid.

Uw database bevat nu gegevens die zijn geladen in een tabel met de naam GreenTaxiData.

5- Het notebook uitvoeren

Voer de resterende twee cellen opeenvolgend uit om een query uit te voeren op gegevens uit de tabel. De resultaten tonen de top 20 hoogste en laagste taxitarieven en afstanden per jaar.

6- Resources opschonen

Schoon de items op die zijn gemaakt door te navigeren naar de werkruimte waarin ze zijn gemaakt.

Beweeg de muisaanwijzer in uw werkruimte over het notitieblok dat u wilt verwijderen, selecteer het menu Meer [...] >Verwijderen.
Selecteer Verwijderen. U kunt uw notitieblok niet herstellen nadat u het hebt verwijderd.

Aanvullende resources

Documentatie

Fabric-notebooks gebruiken met gegevens uit een KQL-database - Microsoft Fabric

Meer informatie over het opvragen van gegevens in een KQL-database vanuit Microsoft Fabric Notebooks met behulp van KQL (Kusto Query Language)
KQL-database configureren in een kopieeractiviteit - Microsoft Fabric

In dit artikel wordt uitgelegd hoe u gegevens kopieert met behulp van KQL Database.
Een KQL-database maken - Microsoft Fabric

Meer informatie over het maken van een KQL-database in realtime intelligence.
Een snelkoppeling naar een database maken - Microsoft Fabric

Meer informatie over het maken van een snelkoppeling naar gegevens in een andere KQL-database of in Azure Data Explorer in realtime intelligence.
Toegang tot een bestaande KQL-database - Microsoft Fabric

Leer hoe u toegang krijgt tot een bestaande KQL-database en desgewenst de query-URI en de opname-URI kopieert om query's uit te voeren of gegevens op te halen in Real-Time Intelligence.
Opgeslagen functies maken in Realtime Intelligence - Microsoft Fabric

Meer informatie over het gebruik van de opdracht .create-or-alter function om opgeslagen functies te maken in Realtime Intelligence.
Gegevens ophalen uit bestand - Microsoft Fabric

Meer informatie over het ophalen van gegevens uit een lokaal bestand in een KQL-database in Real-Time Intelligence.
Overzicht van Eventhouse - Microsoft Fabric

Meer informatie over eventhouse-gegevensopslag in realtime intelligence.

Training

Module

Apache Spark gebruiken in Microsoft Fabric - Training

Apache Spark is een kerntechnologie voor grootschalige gegevensanalyse. Microsoft Fabric biedt ondersteuning voor Spark-clusters, zodat u gegevens op schaal kunt analyseren en verwerken.

Certificering

Microsoft Certified: Fabric Data Engineer Associate - Certifications

As a Fabric Data Engineer, you should have subject matter expertise with data loading patterns, data architectures, and orchestration processes.

Share via

Zelfstudie: Een notebook gebruiken met Apache Spark om een query uit te voeren op een KQL-database

Vereisten

1- Een KQL-database maken

2- Download het NYC GreenTaxi-notebook

3- Het notebook importeren

4- Gegevens ophalen

5- Het notebook uitvoeren

6- Resources opschonen

Feedback

Aanvullende resources

Share via

Zelfstudie: Een notebook gebruiken met Apache Spark om een query uit te voeren op een KQL-database

Vereisten

1- Een KQL-database maken

2- Download het NYC GreenTaxi-notebook

3- Het notebook importeren

4- Gegevens ophalen

5- Het notebook uitvoeren

6- Resources opschonen

Gerelateerde inhoud

Feedback

Aanvullende resources