Freigeben über


Abrufen von Streamingdaten im Lakehouse und Zugreifen darauf über den SQL-Analyseendpunkt

In dieser Schnellstartanleitung wird erläutert, wie Sie eine Spark-Auftragsdefinition erstellen, die Python-Code mit strukturiertem Spark-Streaming enthält, um Daten in einem Lakehouse zu speichern und sie dann über einen SQL-Analyseendpunkt bereitzustellen. Nach Abschluss dieser Schnellstartanleitung verfügen Sie über eine Spark-Auftragsdefinition, die kontinuierlich ausgeführt wird, und der SQL-Analyseendpunkt kann die eingehenden Daten anzeigen.

Erstellen eines Python-Skripts

  1. Verwenden Sie den folgenden Python-Code, der strukturiertes Spark-Streaming verwendet, um Daten in einer Lakehouse-Tabelle abzurufen.

    import sys
    from pyspark.sql import SparkSession
    
    if __name__ == "__main__":
        spark = SparkSession.builder.appName("MyApp").getOrCreate()
    
        tableName = "streamingtable"
        deltaTablePath = "Tables/" + tableName
    
        df = spark.readStream.format("rate").option("rowsPerSecond", 1).load()
    
        query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start()
        query.awaitTermination()
    
  2. Speichern Sie Ihr Skript als Python-Datei (.py) auf Ihrem lokalen Computer.

Erstellen eines Lakehouse

Führen Sie die folgenden Schritte aus, um ein Lakehouse zu erstellen:

  1. Melden Sie sich beim Microsoft Fabric-Portal an.

  2. Navigieren Sie zu Ihrem gewünschten Arbeitsbereich, oder erstellen Sie bei Bedarf einen neuen Arbeitsbereich.

  3. Um ein Lakehouse zu erstellen, wählen Sie im Arbeitsbereich Neues Element und dann im daraufhin geöffneten Bereich die Option Lakehouse aus.

    Screenshot: Dialogfeld „Neues Lakehouse“

  4. Geben Sie den Namen Ihres Lakehouse ein, und wählen Sie Erstellen aus.

Erstellen einer Spark-Auftragsdefinition

Führen Sie die folgenden Schritte aus, um eine Spark-Auftragsdefinition zu erstellen:

  1. Wählen Sie in dem Arbeitsbereich, in dem Sie ein Lakehouse erstellt haben, die Option Neues Element aus.

  2. Wählen Sie im daraufhin geöffneten Bereich unter Daten abrufen die Option Spark-Auftragsdefinition aus.

  3. Geben Sie den Namen Ihrer Spark-Auftragsdefinition ein, und wählen Sie Erstellen aus.

  4. Wählen Sie Hochladen aus, und wählen Sie die Python-Datei aus, die Sie im vorherigen Schritt erstellt haben.

  5. Wählen Sie unter Lakehouse-Referenz das von Ihnen erstellte Lakehouse aus.

Festlegen der Wiederholungsrichtlinie für die Spark-Auftragsdefinition

Führen Sie die folgenden Schritte aus, um die Wiederholungsrichtlinie für Ihre Spark-Auftragsdefinition festzulegen:

  1. Wählen Sie im oberen Menü das Symbol Einstellung aus.

    Screenshot: Einstellungssymbol für die Spark-Auftragsdefinition.

  2. Öffnen Sie die Registerkarte Optimierung, und legen Sie den Trigger Wiederholungsrichtlinie auf Ein fest.

    Screenshot: Registerkarte für die Optimierung der Spark-Auftragsdefinition.

  3. Definieren Sie die maximale Anzahl der Wiederholungsversuche, oder aktivieren Sie Unbegrenzte Versuche zulassen.

  4. Geben Sie die Zeit zwischen den einzelnen Wiederholungsversuchen an, und wählen Sie Anwenden aus.

Hinweis

Für die Einrichtung einer Wiederholungsrichtlinie gilt eine maximale Gültigkeitsdauer von 90 Tagen. Nach dem Aktivieren der Wiederholungsrichtlinie wird der Auftrag innerhalb von 90 Tagen gemäß der Richtlinie neu gestartet. Nach diesem Zeitraum werden die Wiederholungsrichtlinie und der Auftrag automatisch beendet. Benutzer*innen müssen dann den Auftrag manuell neu starten, wodurch wiederum die Wiederholungsrichtlinie erneut aktiviert wird.

Ausführen und Überwachen der Spark-Auftragsdefinition

  1. Wählen Sie im oberen Menü das Symbol Ausführen aus.

    Screenshot: Symbol „Ausführen“ für die Spark-Auftragsdefinition.

  2. Überprüfen Sie, ob die Spark-Auftragsdefinition erfolgreich übermittelt und ausgeführt wurde.

Anzeigen von Daten mithilfe eines SQL-Analyseendpunkts

  1. Wählen Sie in der Arbeitsbereichsansicht Ihr Lakehouse aus.

  2. Wählen Sie in der rechten Ecke Lakehouse und dann SQL-Analyseendpunkt aus.

  3. Wählen Sie in der Ansicht des SQL-Analyseendpunkts unter Tabellen die Tabelle aus, die Ihr Skript zum Einbetten von Daten verwendet. Anschließend können Sie eine Vorschau Ihrer Daten vom SQL-Analyseendpunkt aus anzeigen.