Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten
Den här snabbstarten förklarar hur du skapar en Spark-jobbdefinition som innehåller Python-kod med Spark Structured Streaming för att landa data i ett lakehouse och sedan hantera dem via en SQL-analysslutpunkt. När du har slutfört den här snabbstarten har du en Spark-jobbdefinition som körs kontinuerligt och SQL-analysslutpunkten kan visa inkommande data.
Skapa ett Python-skript
Använd följande Python-kod som använder Spark-strukturerad strömning för att hämta data i en lakehouse-tabell.
import sys from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder.appName("MyApp").getOrCreate() tableName = "streamingtable" deltaTablePath = "Tables/" + tableName df = spark.readStream.format("rate").option("rowsPerSecond", 1).load() query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start() query.awaitTermination()
Spara skriptet som Python-fil (.py) på den lokala datorn.
Skapa ett sjöhus
Använd följande steg för att skapa ett sjöhus:
I Microsoft Fabric väljer du Synapse Data Engineering.
Navigera till önskad arbetsyta eller skapa en ny om det behövs.
Om du vill skapa ett sjöhus väljer du Lakehouse-ikonen under avsnittet Nytt i huvudfönstret.
Ange namnet på ditt lakehouse och välj Skapa.
Skapa en Spark-jobbdefinition
Använd följande steg för att skapa en Spark-jobbdefinition:
Från samma arbetsyta där du skapade ett sjöhus väljer du ikonen Skapa på den vänstra menyn.
Under "Datateknik" väljer du Spark-jobbdefinition.
Ange namnet på spark-jobbdefinitionen och välj Skapa.
Välj Ladda upp och välj den Python-fil som du skapade i föregående steg.
Under Lakehouse Reference väljer du det sjöhus som du skapade.
Ange återförsöksprincip för Spark-jobbdefinition
Använd följande steg för att ange återförsöksprincipen för spark-jobbdefinitionen:
På den översta menyn väljer du inställningsikonen.
Öppna fliken Optimering och ställ in återförsöksprinciputlösaren På.
Definiera maximalt antal återförsök eller markera Tillåt obegränsade försök.
Ange tid mellan varje nytt försök och välj Använd.
Kommentar
Det finns en livstidsgräns på 90 dagar för konfigurationen av återförsöksprincipen. När återförsöksprincipen har aktiverats startas jobbet om enligt principen inom 90 dagar. Efter den här perioden upphör återförsöksprincipen automatiskt att fungera och jobbet avslutas. Användarna måste sedan starta om jobbet manuellt, vilket i sin tur återaktiverar återförsöksprincipen.
Köra och övervaka Spark-jobbdefinitionen
Välj ikonen Kör på den översta menyn.
Kontrollera om Spark-jobbdefinitionen har skickats och körts.
Visa data med hjälp av en SQL-analysslutpunkt
I arbetsytevyn väljer du ditt Lakehouse.
Välj Lakehouse i det högra hörnet och välj SQL Analytics-slutpunkt.
I slutpunktsvyn för SQL-analys under Tabeller väljer du den tabell som skriptet använder för att landa data. Du kan sedan förhandsgranska dina data från SQL-analysslutpunkten.