Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In dieser Schnellstartanleitung wird erläutert, wie Sie eine Spark-Auftragsdefinition erstellen, die Python-Code mit strukturiertem Spark-Streaming enthält, um Daten in einem Lakehouse zu speichern und sie dann über einen SQL-Analyseendpunkt bereitzustellen. Nach Abschluss dieser Schnellstartanleitung verfügen Sie über eine Spark-Auftragsdefinition, die kontinuierlich ausgeführt wird, und der SQL-Analyseendpunkt kann die eingehenden Daten anzeigen.
Erstellen eines Python-Skripts
Verwenden Sie den folgenden Python-Code, der strukturiertes Spark-Streaming verwendet, um Daten in einer Lakehouse-Tabelle abzurufen.
import sys from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder.appName("MyApp").getOrCreate() tableName = "streamingtable" deltaTablePath = "Tables/" + tableName df = spark.readStream.format("rate").option("rowsPerSecond", 1).load() query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start() query.awaitTermination()
Speichern Sie Ihr Skript als Python-Datei (.py) auf Ihrem lokalen Computer.
Erstellen eines Lakehouse
Führen Sie die folgenden Schritte aus, um ein Lakehouse zu erstellen:
Melden Sie sich beim Microsoft Fabric-Portal an.
Navigieren Sie zu Ihrem gewünschten Arbeitsbereich, oder erstellen Sie bei Bedarf einen neuen Arbeitsbereich.
Um ein Lakehouse zu erstellen, wählen Sie im Arbeitsbereich Neues Element und dann im daraufhin geöffneten Bereich die Option Lakehouse aus.
Geben Sie den Namen Ihres Lakehouse ein, und wählen Sie Erstellen aus.
Erstellen einer Spark-Auftragsdefinition
Führen Sie die folgenden Schritte aus, um eine Spark-Auftragsdefinition zu erstellen:
Wählen Sie in dem Arbeitsbereich, in dem Sie ein Lakehouse erstellt haben, die Option Neues Element aus.
Wählen Sie im daraufhin geöffneten Bereich unter Daten abrufen die Option Spark-Auftragsdefinition aus.
Geben Sie den Namen Ihrer Spark-Auftragsdefinition ein, und wählen Sie Erstellen aus.
Wählen Sie Hochladen aus, und wählen Sie die Python-Datei aus, die Sie im vorherigen Schritt erstellt haben.
Wählen Sie unter Lakehouse-Referenz das von Ihnen erstellte Lakehouse aus.
Festlegen der Wiederholungsrichtlinie für die Spark-Auftragsdefinition
Führen Sie die folgenden Schritte aus, um die Wiederholungsrichtlinie für Ihre Spark-Auftragsdefinition festzulegen:
Wählen Sie im oberen Menü das Symbol Einstellung aus.
Öffnen Sie die Registerkarte Optimierung, und legen Sie den Trigger Wiederholungsrichtlinie auf Ein fest.
Definieren Sie die maximale Anzahl der Wiederholungsversuche, oder aktivieren Sie Unbegrenzte Versuche zulassen.
Geben Sie die Zeit zwischen den einzelnen Wiederholungsversuchen an, und wählen Sie Anwenden aus.
Hinweis
Für die Einrichtung einer Wiederholungsrichtlinie gilt eine maximale Gültigkeitsdauer von 90 Tagen. Nach dem Aktivieren der Wiederholungsrichtlinie wird der Auftrag innerhalb von 90 Tagen gemäß der Richtlinie neu gestartet. Nach diesem Zeitraum werden die Wiederholungsrichtlinie und der Auftrag automatisch beendet. Benutzer*innen müssen dann den Auftrag manuell neu starten, wodurch wiederum die Wiederholungsrichtlinie erneut aktiviert wird.
Ausführen und Überwachen der Spark-Auftragsdefinition
Wählen Sie im oberen Menü das Symbol Ausführen aus.
Überprüfen Sie, ob die Spark-Auftragsdefinition erfolgreich übermittelt und ausgeführt wurde.
Anzeigen von Daten mithilfe eines SQL-Analyseendpunkts
Wählen Sie in der Arbeitsbereichsansicht Ihr Lakehouse aus.
Wählen Sie in der rechten Ecke Lakehouse und dann SQL-Analyseendpunkt aus.
Wählen Sie in der Ansicht des SQL-Analyseendpunkts unter Tabellen die Tabelle aus, die Ihr Skript zum Einbetten von Daten verwendet. Anschließend können Sie eine Vorschau Ihrer Daten vom SQL-Analyseendpunkt aus anzeigen.