Dela via


Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten

Den här snabbstarten förklarar hur du skapar en Spark-jobbdefinition som innehåller Python-kod med Spark Structured Streaming för att landa data i ett lakehouse och sedan hantera dem via en SQL-analysslutpunkt. När du har slutfört den här snabbstarten har du en Spark-jobbdefinition som körs kontinuerligt och SQL-analysslutpunkten kan visa inkommande data.

Skapa ett Python-skript

  1. Använd följande Python-kod som använder Spark-strukturerad strömning för att hämta data i en lakehouse-tabell.

    import sys
    from pyspark.sql import SparkSession
    
    if __name__ == "__main__":
        spark = SparkSession.builder.appName("MyApp").getOrCreate()
    
        tableName = "streamingtable"
        deltaTablePath = "Tables/" + tableName
    
        df = spark.readStream.format("rate").option("rowsPerSecond", 1).load()
    
        query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start()
        query.awaitTermination()
    
  2. Spara skriptet som Python-fil (.py) på den lokala datorn.

Skapa ett sjöhus

Använd följande steg för att skapa ett sjöhus:

  1. I Microsoft Fabric väljer du Synapse Data Engineering.

  2. Navigera till önskad arbetsyta eller skapa en ny om det behövs.

  3. Om du vill skapa ett sjöhus väljer du Lakehouse-ikonen under avsnittet Nytt i huvudfönstret.

    Skärmbild som visar dialogrutan new lakehouse

  4. Ange namnet på ditt lakehouse och välj Skapa.

Skapa en Spark-jobbdefinition

Använd följande steg för att skapa en Spark-jobbdefinition:

  1. Från samma arbetsyta där du skapade ett sjöhus väljer du ikonen Skapa på den vänstra menyn.

  2. Under "Datateknik" väljer du Spark-jobbdefinition.

    Skärmbild som visar dialogrutan Ny Spark-jobbdefinition

  3. Ange namnet på spark-jobbdefinitionen och välj Skapa.

  4. Välj Ladda upp och välj den Python-fil som du skapade i föregående steg.

  5. Under Lakehouse Reference väljer du det sjöhus som du skapade.

Ange återförsöksprincip för Spark-jobbdefinition

Använd följande steg för att ange återförsöksprincipen för spark-jobbdefinitionen:

  1. På den översta menyn väljer du inställningsikonen.

    Skärmbild som visar inställningsikonen för Spark-jobbdefinition

  2. Öppna fliken Optimering och ställ in återförsöksprinciputlösaren .

    Skärmbild som visar fliken Optimering av Spark-jobbdefinition

  3. Definiera maximalt antal återförsök eller markera Tillåt obegränsade försök.

  4. Ange tid mellan varje nytt försök och välj Använd.

Kommentar

Det finns en livstidsgräns på 90 dagar för konfigurationen av återförsöksprincipen. När återförsöksprincipen har aktiverats startas jobbet om enligt principen inom 90 dagar. Efter den här perioden upphör återförsöksprincipen automatiskt att fungera och jobbet avslutas. Användarna måste sedan starta om jobbet manuellt, vilket i sin tur återaktiverar återförsöksprincipen.

Köra och övervaka Spark-jobbdefinitionen

  1. Välj ikonen Kör på den översta menyn.

    Skärmbild som visar ikonen för körning av Spark-jobbdefinition

  2. Kontrollera om Spark-jobbdefinitionen har skickats och körts.

Visa data med hjälp av en SQL-analysslutpunkt

  1. I arbetsytevyn väljer du ditt Lakehouse.

  2. Välj Lakehouse i det högra hörnet och välj SQL Analytics-slutpunkt.

  3. I slutpunktsvyn för SQL-analys under Tabeller väljer du den tabell som skriptet använder för att landa data. Du kan sedan förhandsgranska dina data från SQL-analysslutpunkten.