Zelfstudie: Een notebook gebruiken met Apache Spark om een query uit te voeren op een KQL-database
Artikel
Notebooks zijn zowel leesbare documenten met beschrijvingen van gegevensanalyses en resultaten als uitvoerbare documenten die kunnen worden uitgevoerd om gegevensanalyse uit te voeren. In dit artikel leert u hoe u een Microsoft Fabric-notebook gebruikt om gegevens te lezen en te schrijven naar een KQL-database met behulp van Apache Spark. In deze zelfstudie worden vooraf gemaakte gegevenssets en notebooks gebruikt in zowel realtime intelligence als de Data-engineer omgevingen in Microsoft Fabric. Zie Microsoft Fabric-notebooks gebruiken voor meer informatie over notebooks.
U leert met name het volgende:
Een KQL-database maken
Een notebook importeren
Gegevens schrijven naar een KQL-database met apache Spark
Query's uitvoeren op gegevens uit een KQL-database
Vereisten
Een werkruimte met een Capaciteit met Microsoft Fabric
1- Een KQL-database maken
Selecteer uw werkruimte in de linkernavigatiebalk.
Volg een van deze stappen om een eventstream te maken:
Selecteer Nieuw item en Eventhouse. Voer in het veld Eventhouse-naamnycGreenTaxi-in en selecteer vervolgens maken. Er wordt een KQL-database met dezelfde naam gegenereerd.
Selecteer in een bestaand eventhouse Databases. Selecteer onder KQL-databases+in het veld KQL-databasenaamnycGreenTaxi-en selecteer vervolgens maken.
Kopieer de query-URI van de databasegegevenskaart in het databasedashboard en plak deze ergens, zoals een kladblok, om in een latere stap te gebruiken.
2- Download het NYC GreenTaxi-notebook
We hebben een voorbeeldnotebook gemaakt waarmee u alle benodigde stappen voor het laden van gegevens in uw database doorloopt met behulp van de Spark-connector.
Het notitieblok moet worden opgeslagen in de .ipynb bestandsindeling.
3- Het notebook importeren
De rest van deze werkstroom vindt plaats in de Data-engineer sectie van het product en gebruikt een Spark-notebook om gegevens in uw KQL-database te laden en er query's op uit te voeren.
Selecteer in uw werkruimte Import>Notebook>vanaf deze computer>Upload en vervolgens kiest u het NYC GreenTaxi-notitieblok dat u in een vorige stap hebt gedownload.
Zodra het importeren is voltooid, opent u het notebook vanuit uw werkruimte.
4- Gegevens ophalen
Als u een query wilt uitvoeren op uw database met behulp van de Spark-connector, moet u lees- en schrijftoegang geven tot de NYC GreenTaxi-blobcontainer.
Selecteer de afspeelknop om de volgende cellen uit te voeren of selecteer de cel en druk op Shift+Enter. Herhaal deze stap voor elke codecel.
Notitie
Wacht totdat het voltooiingscontrolemarkering wordt weergegeven voordat de volgende cel wordt uitgevoerd.
Voer de volgende cel uit om toegang tot de NYC GreenTaxi-blobcontainer in te schakelen.
Plak in KustoURI de query-URI die u eerder hebt gekopieerd in plaats van de tekst van de tijdelijke aanduiding.
Wijzig de naam van de tijdelijke aanduiding voor de database in nycGreenTaxi.
Wijzig de tabelnaam van de tijdelijke aanduiding in GreenTaxiData.
Voer de cel uit.
Voer de volgende cel uit om gegevens naar uw database te schrijven. Het kan enkele minuten duren voordat deze stap is voltooid.
Uw database bevat nu gegevens die zijn geladen in een tabel met de naam GreenTaxiData.
5- Het notebook uitvoeren
Voer de resterende twee cellen opeenvolgend uit om een query uit te voeren op gegevens uit de tabel. De resultaten tonen de top 20 hoogste en laagste taxitarieven en afstanden per jaar.
6- Resources opschonen
Schoon de items op die zijn gemaakt door te navigeren naar de werkruimte waarin ze zijn gemaakt.
Beweeg de muisaanwijzer in uw werkruimte over het notitieblok dat u wilt verwijderen, selecteer het menu Meer [...] >Verwijderen.
Selecteer Verwijderen. U kunt uw notitieblok niet herstellen nadat u het hebt verwijderd.
Apache Spark is een kerntechnologie voor grootschalige gegevensanalyse. Microsoft Fabric biedt ondersteuning voor Spark-clusters, zodat u gegevens op schaal kunt analyseren en verwerken.
Leer hoe u toegang krijgt tot een bestaande KQL-database en desgewenst de query-URI en de opname-URI kopieert om query's uit te voeren of gegevens op te halen in Real-Time Intelligence.