Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten

Artikel
05/25/2024

Den här snabbstarten förklarar hur du skapar en Spark-jobbdefinition som innehåller Python-kod med Spark Structured Streaming för att landa data i ett lakehouse och sedan hantera dem via en SQL-analysslutpunkt. När du har slutfört den här snabbstarten har du en Spark-jobbdefinition som körs kontinuerligt och SQL-analysslutpunkten kan visa inkommande data.

Skapa ett Python-skript

Använd följande Python-kod som använder Spark-strukturerad strömning för att hämta data i en lakehouse-tabell.

import sys
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession.builder.appName("MyApp").getOrCreate()

    tableName = "streamingtable"
    deltaTablePath = "Tables/" + tableName

    df = spark.readStream.format("rate").option("rowsPerSecond", 1).load()

    query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start()
    query.awaitTermination()

Spara skriptet som Python-fil (.py) på den lokala datorn.

Skapa ett sjöhus

Använd följande steg för att skapa ett sjöhus:

I Microsoft Fabric väljer du Synapse Data Engineering.
Navigera till önskad arbetsyta eller skapa en ny om det behövs.
Om du vill skapa ett sjöhus väljer du Lakehouse-ikonen under avsnittet Nytt i huvudfönstret.
Ange namnet på ditt lakehouse och välj Skapa.

Skapa en Spark-jobbdefinition

Använd följande steg för att skapa en Spark-jobbdefinition:

Från samma arbetsyta där du skapade ett sjöhus väljer du ikonen Skapa på den vänstra menyn.
Under "Datateknik" väljer du Spark-jobbdefinition.
Ange namnet på spark-jobbdefinitionen och välj Skapa.
Välj Ladda upp och välj den Python-fil som du skapade i föregående steg.
Under Lakehouse Reference väljer du det sjöhus som du skapade.

Ange återförsöksprincip för Spark-jobbdefinition

Använd följande steg för att ange återförsöksprincipen för spark-jobbdefinitionen:

På den översta menyn väljer du inställningsikonen.
Öppna fliken Optimering och ställ in återförsöksprinciputlösaren På.
Definiera maximalt antal återförsök eller markera Tillåt obegränsade försök.
Ange tid mellan varje nytt försök och välj Använd.

Kommentar

Det finns en livstidsgräns på 90 dagar för konfigurationen av återförsöksprincipen. När återförsöksprincipen har aktiverats startas jobbet om enligt principen inom 90 dagar. Efter den här perioden upphör återförsöksprincipen automatiskt att fungera och jobbet avslutas. Användarna måste sedan starta om jobbet manuellt, vilket i sin tur återaktiverar återförsöksprincipen.

Köra och övervaka Spark-jobbdefinitionen

Välj ikonen Kör på den översta menyn.
Kontrollera om Spark-jobbdefinitionen har skickats och körts.

Visa data med hjälp av en SQL-analysslutpunkt

I arbetsytevyn väljer du ditt Lakehouse.
Välj Lakehouse i det högra hörnet och välj SQL Analytics-slutpunkt.
I slutpunktsvyn för SQL-analys under Tabeller väljer du den tabell som skriptet använder för att landa data. Du kan sedan förhandsgranska dina data från SQL-analysslutpunkten.

Dela via

Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten

Skapa ett Python-skript

Skapa ett sjöhus

Skapa en Spark-jobbdefinition

Ange återförsöksprincip för Spark-jobbdefinition

Köra och övervaka Spark-jobbdefinitionen

Visa data med hjälp av en SQL-analysslutpunkt

Feedback

Ytterligare resurser

Dela via

Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten

Skapa ett Python-skript

Skapa ett sjöhus

Skapa en Spark-jobbdefinition

Ange återförsöksprincip för Spark-jobbdefinition

Köra och övervaka Spark-jobbdefinitionen

Visa data med hjälp av en SQL-analysslutpunkt

Relaterat innehåll

Feedback

Ytterligare resurser