Lezen in het Engels

Share via


Zelfstudie: Een notebook gebruiken met Apache Spark om een query uit te voeren op een KQL-database

Notebooks zijn zowel leesbare documenten met beschrijvingen van gegevensanalyses en resultaten als uitvoerbare documenten die kunnen worden uitgevoerd om gegevensanalyse uit te voeren. In dit artikel leert u hoe u een Microsoft Fabric-notebook gebruikt om gegevens te lezen en te schrijven naar een KQL-database met behulp van Apache Spark. In deze zelfstudie worden vooraf gemaakte gegevenssets en notebooks gebruikt in zowel realtime intelligence als de Data-engineer omgevingen in Microsoft Fabric. Zie Microsoft Fabric-notebooks gebruiken voor meer informatie over notebooks.

U leert met name het volgende:

  • Een KQL-database maken
  • Een notebook importeren
  • Gegevens schrijven naar een KQL-database met apache Spark
  • Query's uitvoeren op gegevens uit een KQL-database

Vereisten

  • Een werkruimte met een Capaciteit met Microsoft Fabric

1- Een KQL-database maken

  1. Selecteer uw werkruimte in de linkernavigatiebalk.

  2. Volg een van deze stappen om een eventstream te maken:

    • Selecteer Nieuw item en Eventhouse. Voer in het veld Eventhouse-naamnycGreenTaxi-in en selecteer vervolgens maken. Er wordt een KQL-database met dezelfde naam gegenereerd.
    • Selecteer in een bestaand eventhouse Databases. Selecteer onder KQL-databases+in het veld KQL-databasenaamnycGreenTaxi-en selecteer vervolgens maken.
  3. Kopieer de query-URI van de databasegegevenskaart in het databasedashboard en plak deze ergens, zoals een kladblok, om in een latere stap te gebruiken.

     Schermopname van de kaart met databasegegevens waarin de databasegegevens worden weergegeven. De optie Query-URI met de titel URI Kopiëren is gemarkeerd.

2- Download het NYC GreenTaxi-notebook

We hebben een voorbeeldnotebook gemaakt waarmee u alle benodigde stappen voor het laden van gegevens in uw database doorloopt met behulp van de Spark-connector.

  1. Open de opslagplaats fabric-voorbeelden op GitHub om het NYC GreenTaxi KQL-notebook te downloaden.

    Schermopname van GitHub-opslagplaats met het NYC GreenTaxi-notebook. De optie Onbewerkt is gemarkeerd.

  2. Sla het notitieblok lokaal op uw apparaat op.

    Notitie

    Het notitieblok moet worden opgeslagen in de .ipynb bestandsindeling.

3- Het notebook importeren

De rest van deze werkstroom vindt plaats in de Data-engineer sectie van het product en gebruikt een Spark-notebook om gegevens in uw KQL-database te laden en er query's op uit te voeren.

  1. Selecteer in uw werkruimte Import>Notebook>vanaf deze computer>Upload en vervolgens kiest u het NYC GreenTaxi-notitieblok dat u in een vorige stap hebt gedownload.

    Schermopname van het venster Importstatus. De knop uploaden is gemarkeerd.

  2. Zodra het importeren is voltooid, opent u het notebook vanuit uw werkruimte.

4- Gegevens ophalen

Als u een query wilt uitvoeren op uw database met behulp van de Spark-connector, moet u lees- en schrijftoegang geven tot de NYC GreenTaxi-blobcontainer.

Selecteer de afspeelknop om de volgende cellen uit te voeren of selecteer de cel en druk op Shift+Enter. Herhaal deze stap voor elke codecel.

Notitie

Wacht totdat het voltooiingscontrolemarkering wordt weergegeven voordat de volgende cel wordt uitgevoerd.

  1. Voer de volgende cel uit om toegang tot de NYC GreenTaxi-blobcontainer in te schakelen.

    Schermopname van de eerste codecel met toegangsinformatie voor opslag.

  2. Plak in KustoURI de query-URI die u eerder hebt gekopieerd in plaats van de tekst van de tijdelijke aanduiding.

  3. Wijzig de naam van de tijdelijke aanduiding voor de database in nycGreenTaxi.

  4. Wijzig de tabelnaam van de tijdelijke aanduiding in GreenTaxiData.

    Schermopname van de tweede codecel met de doeldatabasegegevens. De query-URI, de databasenaam en de tabelnaam zijn gemarkeerd.

  5. Voer de cel uit.

  6. Voer de volgende cel uit om gegevens naar uw database te schrijven. Het kan enkele minuten duren voordat deze stap is voltooid.

    Schermopname van derde codecel met de opdracht tabeltoewijzing en opname.

Uw database bevat nu gegevens die zijn geladen in een tabel met de naam GreenTaxiData.

5- Het notebook uitvoeren

Voer de resterende twee cellen opeenvolgend uit om een query uit te voeren op gegevens uit de tabel. De resultaten tonen de top 20 hoogste en laagste taxitarieven en afstanden per jaar.

Schermopname van de vierde en vijfde codecel met de queryresultaten.

6- Resources opschonen

Schoon de items op die zijn gemaakt door te navigeren naar de werkruimte waarin ze zijn gemaakt.

  1. Beweeg de muisaanwijzer in uw werkruimte over het notitieblok dat u wilt verwijderen, selecteer het menu Meer [...] >Verwijderen.

    Schermopname van de werkruimte met de vervolgkeuzelijst van het NYC GreenTaxi-notebook. De optie met de titel Verwijderen is gemarkeerd.

  2. Selecteer Verwijderen. U kunt uw notitieblok niet herstellen nadat u het hebt verwijderd.