Tutorial: Verwenden eines Notebooks mit Apache Spark zum Abfragen einer KQL-Datenbank

Notebooks sind sowohl lesbare Dokumente, die Beschreibungen und Ergebnisse der Datenanalyse enthalten, als auch ausführbare Dokumente, die zur Datenanalyse ausgeführt werden können. In diesem Artikel erfahren Sie, wie Sie ein Microsoft Fabric-Notebook verwenden, um mithilfe von Apache Spark Daten in einer KQL-Datenbank zu lesen und sie in diese zu schreiben. In diesem Tutorial werden vorab erstellte Datasets und Notebooks sowohl in der Echtzeitanalyse als auch in den Datentechnik-Umgebungen in Microsoft Fabric verwendet. Weitere Informationen zu Notebooks finden Sie unter Verwenden von Microsoft Fabric-Notebooks.

Sie lernen speziell Folgendes:

  • Erstellen einer KQL-Datenbank
  • Importieren eines Notebooks
  • Schreiben von Daten in eine KQL-Datenbank mithilfe von Apache Spark
  • Abfragen von Daten aus einer KQL-Datenbank

Voraussetzungen

1. Erstellen einer KQL-Datenbank

  1. Öffnen Sie den Switcher für die Benutzererfahrung unten im Navigationsbereich, und wählen Sie Echtzeitanalyse aus.

  2. Wählen Sie die KQL-Datenbank aus.

    Screenshot of new KQL database tile in Real-Time Analytics.

  3. Geben Sie im Feld KQL-DatenbanknamenycGreenTaxi ein, und wählen Sie dann Erstellen aus.

    Die KQL-Datenbank wurde nun im Kontext des ausgewählten Arbeitsbereichs erstellt.

  4. Kopieren Sie den Abfrage-URI aus der Karte der Datenbankdetails im Datenbankdashboard, und fügen Sie ihn irgendwo, z. B. in einen Editor, ein, um ihn in einem späteren Schritt zu verwenden.

     Screenshot of the database details card that shows the database details. The Query URI option titled Copy URI is highlighted.

2. Herunterladen des NYC GreenTaxi-Notebooks

Wir haben ein Beispielnotebook erstellt, das Sie durch alle erforderlichen Schritte zum Laden von Daten in Ihre Datenbank mit dem Spark-Connector führt.

  1. Öffnen Sie das Fabric-Beispielrepository auf GitHub, um das NYC GreenTaxi KQL-Notebook herunterzuladen.

    Screenshot of GitHub repository showing the NYC GreenTaxi notebook. The Raw option is highlighted.

  2. Speichern Sie das Notebook lokal auf Ihrem Gerät.

    Hinweis

    Das Notebook muss im Dateiformat .ipynb gespeichert werden.

3. Importieren des Notebooks

Der Rest dieses Workflows erfolgt im Abschnitt Datentechnik des Produkts und verwendet ein Spark-Notebook, um Daten in Ihre KQL-Datenbank zu laden und abzufragen.

  1. Öffnen Sie den Switcher für die Benutzererfahrung unten im Navigationsbereich, und wählen Sie Datentechnik aus.

  2. Wählen Sie Notebook importieren.

    Screenshot of item options in Data Engineering. The item titled Import notebook is highlighted.

  3. Wählen Sie im Fenster Importstatus die Option Hochladen aus.

    Screenshot of Import status window. The button titled Upload is highlighted.

  4. Wählen Sie das NYC GreenTaxi-Notebook aus, das Sie in einem vorherigen Schritt heruntergeladen haben.

  5. Kehren Sie nach Abschluss des Imports zu Ihrem Arbeitsbereich zurück, um dieses Notebook zu öffnen.

4. Abrufen der Daten

Um Ihre Datenbank mithilfe des Spark-Connectors abzufragen, müssen Sie Lese- und Schreibzugriff auf den NYC GreenTaxi-Blobcontainer gewähren.

Wählen Sie die Wiedergabeschaltfläche aus, um die folgenden Zellen auszuführen, oder wählen Sie die Zelle aus, und drücken Sie UMSCHALT+EINGABETASTE. Wiederholen Sie diesen Schritt für jede Codezelle.

Hinweis

Warten Sie, bis das Häkchen angezeigt wird, bevor Sie die nächste Zelle ausführen.

  1. Führen Sie die folgende Zelle aus, um den Zugriff auf den NYC GreenTaxi-Blobcontainer zu ermöglichen.

    Screenshot of first code cell showing storage access information.

  2. Fügen Sie in KustoURI den zuvor kopiertenAbfrage-URI anstelle des Platzhaltertexts ein.

  3. Ändern Sie den Platzhalternamen der Datenbank in nycGreenTaxi.

  4. Ändern Sie den Platzhalternamen der Tabelle in GreenTaxiData.

    Screenshot of second code cell showing the target database information. The Query URI, the database name, and the table name are highlighted.

  5. Führen Sie die Zelle aus.

  6. Führen Sie die nächste Zelle aus, um Daten in Ihre Datenbank zu schreiben. Es kann einige Minuten dauern, bis der Vorgang abgeschlossen ist.

    Screenshot of third code cell showing table mapping and ingestion command.

Ihre Datenbank enthält nun Daten, die in eine Tabelle mit dem Namen GreenTaxiData geladen wurden.

5. Ausführen des Notebooks

Führen Sie die verbleibenden beiden Zellen sequenziell aus, um Daten aus Ihrer Tabelle abzufragen. Die Ergebnisse zeigen die 20 besten und niedrigsten Taxitarife und Entfernungen, die nach Jahr aufgezeichnet wurden.

Screenshot of fourth and fifth code cell showing the query results.

6. Bereinigen der Ressourcen

Bereinigen Sie die erstellten Elemente, indem Sie zu dem Arbeitsbereich navigieren, in dem sie erstellt wurden.

  1. Zeigen Sie in Ihrem Arbeitsbereich auf das Notebook, das Sie löschen möchten, und wählen Sie Menü „Mehr“ [...] >Löschen aus.

    Screenshot of workspace showing the drop-down menu of the NYC GreenTaxi notebook. The option titled Delete is highlighted.

  2. Klicken Sie auf Löschen. Sie können Ihr Notebook nach dem Löschen nicht mehr wiederherstellen.