Skapa och hantera Apache Spark-jobbdefinitioner i Visual Studio Code

Visual Studio-kodtillägget (VS) för Synapse har fullt stöd för curd-jobbet (skapa, uppdatera, läsa och ta bort) Spark-jobbdefinitionen i Fabric. När du har skapat en Spark-jobbdefinition kan du ladda upp fler refererade bibliotek, skicka en begäran om att köra Spark-jobbdefinitionen och kontrollera körningshistoriken.

Skapa en Spark-jobbdefinition

Så här skapar du en ny Spark-jobbdefinition:

  1. I VS Code Explorer väljer du alternativet Skapa Spark-jobbdefinition .

    Screenshot of VS Code Explorer, showing where to select the Create Spark Job Definition option.

  2. Ange de inledande obligatoriska fälten: name, referenced lakehouse och default lakehouse.

  3. Begärandeprocesserna och namnet på den nyligen skapade Spark-jobbdefinitionen visas under rotnoden För Spark-jobbdefinition i VS Code Explorer. Under noden Namn på Spark-jobbdefinition visas tre undernoder:

    • Filer: Lista över huvuddefinitionsfilen och andra refererade bibliotek. Du kan ladda upp nya filer från den här listan.
    • Lakehouse: Lista över alla lakehouses som refereras av den här Spark-jobbdefinitionen. Standard lakehouse är markerat i listan och du kan komma åt det via den relativa sökvägen Files/…, Tables/….
    • Kör: Lista över körningshistoriken för den här Spark-jobbdefinitionen och jobbstatusen för varje körning.

Ladda upp en huvuddefinitionsfil till ett refererat bibliotek

Om du vill ladda upp eller skriva över huvuddefinitionsfilen väljer du alternativet Lägg till huvudfil .

Screenshot of VS Code Explorer, showing where to select the Add Main File option.

Om du vill ladda upp den biblioteksfil som huvuddefinitionsfilen refererar till väljer du alternativet Lägg till Lib-fil .

Screenshot showing upload lib button.

När du har laddat upp en fil kan du åsidosätta den genom att klicka på alternativet Uppdatera fil och ladda upp en ny fil, eller så kan du ta bort filen via alternativet Ta bort .

Screenshot of VS Code Explorer, showing where to find the Update File and Delete options.

Skicka en körningsbegäran

Så här skickar du en begäran om att köra Spark-jobbdefinitionen från VS Code:

  1. Välj alternativet Kör Spark-jobb från alternativen till höger om namnet på den Spark-jobbdefinition som du vill köra.

    Screenshot of VS Code Explorer, showing where to select Run Spark Job.

  2. När du har skickat begäran visas ett nytt Spark-program i noden Körningar i explorer-listan. Du kan avbryta jobbet som körs genom att välja alternativet Avbryt Spark-jobb .

    Screenshot of VS Code Explorer with the new Spark application listed under the Runs node, and showing where to find the Cancel Spark Job option.

Öppna en Spark-jobbdefinition i Infrastrukturportalen

Du kan öppna redigeringssidan för Spark-jobbdefinition i Infrastrukturportalen genom att välja alternativet Öppna i webbläsare .

Du kan också välja Öppna i webbläsaren bredvid en slutförd körning för att se detaljövervakarsidan för den körningen.

Screenshot of VS Code Explorer, showing where to select the Open in Browser option.

Felsöka Källkod för Spark-jobbdefinition (Python)

Om Spark-jobbdefinitionen skapas med PySpark (Python) kan du ladda ned .py-skriptet för huvuddefinitionsfilen och den refererade filen och felsöka källskriptet i VS Code.

  1. Om du vill ladda ned källkoden väljer du alternativet Felsöka Spark-jobbdefinition till höger om Spark-jobbdefinitionen.

    Screenshot showing download source button.

  2. När nedladdningen är klar öppnas källkodens mapp automatiskt.

  3. Välj alternativet Lita på författarna när du uppmanas att göra det. (Det här alternativet visas bara första gången du öppnar mappen. Om du inte väljer det här alternativet kan du inte felsöka eller köra källskriptet. Mer information finns i Säkerhetsförtroende för Visual Studio Code-arbetsyta.)

  4. Om du har laddat ned källkoden tidigare uppmanas du att bekräfta att du vill skriva över den lokala versionen med den nya nedladdningen.

    Kommentar

    I rotmappen för källskriptet skapar systemet en undermapp med namnet conf. I den här mappen innehåller en fil med namnet lighter-config.json vissa systemmetadata som behövs för fjärrkörningen. Gör INGA ändringar i den.

  5. Filen med namnet sparkconf.py innehåller ett kodfragment som du behöver lägga till för att konfigurera SparkConf-objektet . Om du vill aktivera fjärrfelsökningen kontrollerar du att SparkConf-objektet har konfigurerats korrekt. Följande bild visar den ursprungliga versionen av källkoden.

    Screenshot of a code sample, showing the source code before the change.

    Nästa bild är den uppdaterade källkoden när du har kopierat och klistrat in kodfragmentet.

    Screenshot of a code sample, showing the source code after the change.

  6. När du har uppdaterat källkoden med nödvändig konfiguration måste du välja rätt Python-tolk. Se till att välja den som är installerad från conda-miljön synapse-spark-kernel .

Redigera egenskaper för Spark-jobbdefinition

Du kan redigera detaljegenskaperna för Spark-jobbdefinitioner, till exempel kommandoradsargument.

  1. Välj alternativet Uppdatera SJD-konfiguration för att öppna en settings.yml-fil. De befintliga egenskaperna fyller i innehållet i den här filen.

    Screenshot showing where to select the Update SJD Configuration option for a Spark job definition.

  2. Uppdatera och spara .yml-filen.

  3. Välj alternativet Publicera SJD-egenskap i det övre högra hörnet för att synkronisera ändringen tillbaka till fjärrarbetsytan.

    Screenshot showing where to select the Publish SJD Property option for a Spark job definition.