Hämta strömmande data till lakehouse och åtkomst med SQL-analysslutpunkten

Den här snabbstarten förklarar hur du skapar en Spark-jobbdefinition som innehåller Python-kod med Spark Structured Streaming för att landa data i ett lakehouse och sedan hantera dem via en SQL-analysslutpunkt. När du har slutfört den här snabbstarten har du en Spark-jobbdefinition som körs kontinuerligt och SQL-analysslutpunkten kan visa inkommande data.

Skapa ett Python-skript

  1. Använd följande Python-kod som använder Spark-strukturerad strömning för att hämta data i en lakehouse-tabell.

    import sys
    from pyspark.sql import SparkSession
    
    if __name__ == "__main__":
        spark = SparkSession.builder.appName("MyApp").getOrCreate()
    
        tableName = "streamingtable"
        deltaTablePath = "Tables/" + tableName
    
        df = spark.readStream.format("rate").option("rowsPerSecond", 1).load()
    
        query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start()
        query.awaitTermination()
    
  2. Spara skriptet som Python-fil (.py) på den lokala datorn.

Skapa ett sjöhus

Använd följande steg för att skapa ett sjöhus:

  1. I Microsoft Fabric väljer du synapse-Datateknik upplevelse.

  2. Navigera till önskad arbetsyta eller skapa en ny om det behövs.

  3. Om du vill skapa ett sjöhus väljer du Lakehouse-ikonen under avsnittet Nytt i huvudfönstret.

    Screenshot showing new lakehouse dialog

  4. Ange namnet på ditt lakehouse och välj Skapa.

Skapa en Spark-jobbdefinition

Använd följande steg för att skapa en Spark-jobbdefinition:

  1. Från samma arbetsyta där du skapade ett sjöhus väljer du ikonen Skapa på den vänstra menyn.

  2. Under "Datateknik" väljer du Spark-jobbdefinition.

    Screenshot showing new Spark Job Definition dialog

  3. Ange namnet på spark-jobbdefinitionen och välj Skapa.

  4. Välj Ladda upp och välj den Python-fil som du skapade i föregående steg.

  5. Under Lakehouse Reference väljer du det sjöhus som du skapade.

Ange återförsöksprincip för Spark-jobbdefinition

Använd följande steg för att ange återförsöksprincipen för spark-jobbdefinitionen:

  1. På den översta menyn väljer du inställningsikonen.

    Screenshot showing Spark Job Definition settings icon

  2. Öppna fliken Optimering och ställ in återförsöksprinciputlösaren.

    Screenshot showing Spark Job Definition optimization tab

  3. Definiera maximalt antal återförsök eller markera Tillåt obegränsade försök.

  4. Ange tid mellan varje nytt försök och välj Använd.

Kommentar

Det finns en livstidsgräns på 90 dagar för konfigurationen av återförsöksprincipen. När återförsöksprincipen har aktiverats startas jobbet om enligt principen inom 90 dagar. Efter den här perioden upphör återförsöksprincipen automatiskt att fungera och jobbet avslutas. Användarna måste sedan starta om jobbet manuellt, vilket i sin tur återaktiverar återförsöksprincipen.

Köra och övervaka Spark-jobbdefinitionen

  1. Välj ikonen Kör på den översta menyn.

    Screenshot showing Spark Job Definition run icon

  2. Kontrollera om Spark-jobbdefinitionen har skickats och körts.

Visa data med hjälp av en SQL-analysslutpunkt

  1. I arbetsytevyn väljer du ditt Lakehouse.

  2. Välj Lakehouse i det högra hörnet och välj SQL Analytics-slutpunkt.

  3. I slutpunktsvyn för SQL-analys under Tabeller väljer du den tabell som skriptet använder för att landa data. Du kan sedan förhandsgranska dina data från SQL-analysslutpunkten.