Snabbstart: Transformera data med apache Spark-jobbdefinition

I den här snabbstarten använder du Azure Synapse Analytics för att skapa en pipeline med apache Spark-jobbdefinition.

Förutsättningar

När din Azure Synapse arbetsyta har skapats kan du öppna Synapse Studio på två sätt:

I den här snabbstarten använder vi arbetsytan "sampletest" som exempel. Den navigerar automatiskt till Synapse Studio startsida.

Synapse Studio-startsida

Skapa en pipeline med en Apache Spark-jobbdefinition

En pipeline innehåller det logiska flödet för en körning av en uppsättning aktiviteter. I det här avsnittet skapar du en pipeline som innehåller en Apache Spark-jobbdefinitionsaktivitet.

  1. Gå till fliken Integrera . Välj plusikonen bredvid pipelinehuvudet och välj Pipeline.

    Skapa en ny pipeline

  2. På sidan Egenskaper inställningar i pipelinen anger du demo för Namn.

  3. Under Synapse i fönstret Aktiviteter drar du Spark-jobbdefinitionen till pipelinearbetsytan.

    dra spark-jobbdefinition

Ange Apache Spark-jobbdefinitionsarbetsyta

När du har skapat apache Spark-jobbdefinitionen skickas du automatiskt till Spark-jobbdefinitionsarbetsytan.

Allmänna inställningar

  1. Välj spark-jobbdefinitionsmodulen på arbetsytan.

  2. På fliken Allmänt anger du exempel för Namn.

  3. (Alternativ) Du kan också ange en beskrivning.

  4. Tidsgräns: Maximal tid som en aktivitet kan köras. Standardvärdet är sju dagar, vilket också är den maximala tillåtna tiden. Formatet finns i D.HH:MM:SS.

  5. Försök igen: Maximalt antal återförsök.

  6. Återförsöksintervall: Antalet sekunder mellan varje återförsök.

  7. Säkra utdata: När den är markerad registreras inte utdata från aktiviteten i loggningen.

  8. Säkra indata: När den är markerad registreras inte indata från aktiviteten i loggningen.

    allmän definition för spark-jobb

Fliken Inställningar

På den här panelen kan du referera till Spark-jobbdefinitionen som ska köras.

  • Expandera spark-jobbdefinitionslistan. Du kan välja en befintlig Apache Spark-jobbdefinition. Du kan också skapa en ny Apache Spark-jobbdefinition genom att välja knappen Ny för att referera till Spark-jobbdefinitionen som ska köras.

  • (Valfritt) Du kan fylla i information för Apache Spark-jobbdefinition. Om följande inställningar är tomma används inställningarna för själva spark-jobbdefinitionen för att köras. Om följande inställningar inte är tomma ersätter inställningarna för själva spark-jobbdefinitionen.

    Egenskap Beskrivning
    Huvuddefinitionsfil Huvudfilen som används för jobbet. Välj en PY/JAR/ZIP-fil från lagringen. Du kan välja Ladda upp fil för att ladda upp filen till ett lagringskonto.
    Prov: abfss://…/path/to/wordcount.jar
    Referenser från undermappar Genom att skanna undermappar från rotmappen i huvuddefinitionsfilen läggs dessa filer till som referensfiler. Mapparna med namnet "jars", "pyFiles", "files" eller "archives" genomsöks och mappnamnet är skiftlägeskänsligt.
    Huvudklassnamn Den fullständigt kvalificerade identifieraren eller huvudklassen som finns i huvuddefinitionsfilen.
    Prov: WordCount
    Kommandoradsargument Du kan lägga till kommandoradsargument genom att klicka på knappen Nytt . Det bör noteras att om du lägger till kommandoradsargument åsidosätts de kommandoradsargument som definieras av Spark-jobbdefinitionen.
    Prov: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark-pool Du kan välja Apache Spark-pool i listan.
    Python-kodreferens Ytterligare Python-kodfiler som används som referens i huvuddefinitionsfilen.
    Det stöder överföring av filer (.py, .py3, .zip) till egenskapen "pyFiles". Den åsidosätter egenskapen "pyFiles" som definierats i Spark-jobbdefinitionen.
    Referensfiler Ytterligare filer som används som referens i huvuddefinitionsfilen.
    Dynamiskt allokera utförare Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för spark-programexekutorallokering.
    Min executors Minsta antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Maximalt antal utförare Maximalt antal utförare som ska allokeras i den angivna Spark-poolen för jobbet.
    Drivrutinsstorlek Antal kärnor och minne som ska användas för drivrutinen som anges i den angivna Apache Spark-poolen för jobbet.
    Apache Spark-konfiguration Ange värden för Spark-konfigurationsegenskaper som anges i avsnittet: Spark-konfiguration – Programegenskaper. Användare kan använda standardkonfiguration och anpassad konfiguration.

    pipline-inställningar för spark-jobbdefinition

  • Du kan lägga till dynamiskt innehåll genom att klicka på knappen Lägg till dynamiskt innehåll eller genom att trycka på kortkommandot Alt+Skift+D. På sidan Lägg till dynamiskt innehåll kan du använda valfri kombination av uttryck, funktioner och systemvariabler för att lägga till dynamiskt innehåll.

    lägga till dynamiskt innehåll

Fliken Användaregenskaper

Du kan lägga till egenskaper för Apache Spark-jobbdefinitionsaktivitet i den här panelen.

användaregenskaper

Nästa steg

Gå vidare till följande artiklar om du vill veta mer om stöd för Azure Synapse Analytics: