Snabbstart: Transformera data med apache Spark-jobbdefinition
I den här snabbstarten använder du Azure Synapse Analytics för att skapa en pipeline med apache Spark-jobbdefinition.
Förutsättningar
- Azure-prenumeration: Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto innan du börjar.
- Azure Synapse arbetsyta: Skapa en Synapse-arbetsyta med hjälp av Azure Portal enligt anvisningarna i Snabbstart: Skapa en Synapse-arbetsyta.
- Apache Spark-jobbdefinition: Skapa en Apache Spark-jobbdefinition på Synapse-arbetsytan enligt anvisningarna i Självstudie: Skapa Apache Spark-jobbdefinition i Synapse Studio.
Gå till Synapse Studio
När din Azure Synapse arbetsyta har skapats kan du öppna Synapse Studio på två sätt:
- Öppna Synapse-arbetsytan i Azure Portal. Välj Öppna på kortet Öppna Synapse Studio under Komma igång.
- Öppna Azure Synapse Analytics och logga in på din arbetsyta.
I den här snabbstarten använder vi arbetsytan "sampletest" som exempel. Den navigerar automatiskt till Synapse Studio startsida.
Skapa en pipeline med en Apache Spark-jobbdefinition
En pipeline innehåller det logiska flödet för en körning av en uppsättning aktiviteter. I det här avsnittet skapar du en pipeline som innehåller en Apache Spark-jobbdefinitionsaktivitet.
Gå till fliken Integrera . Välj plusikonen bredvid pipelinehuvudet och välj Pipeline.
På sidan Egenskaper inställningar i pipelinen anger du demo för Namn.
Under Synapse i fönstret Aktiviteter drar du Spark-jobbdefinitionen till pipelinearbetsytan.
Ange Apache Spark-jobbdefinitionsarbetsyta
När du har skapat apache Spark-jobbdefinitionen skickas du automatiskt till Spark-jobbdefinitionsarbetsytan.
Allmänna inställningar
Välj spark-jobbdefinitionsmodulen på arbetsytan.
På fliken Allmänt anger du exempel för Namn.
(Alternativ) Du kan också ange en beskrivning.
Tidsgräns: Maximal tid som en aktivitet kan köras. Standardvärdet är sju dagar, vilket också är den maximala tillåtna tiden. Formatet finns i D.HH:MM:SS.
Försök igen: Maximalt antal återförsök.
Återförsöksintervall: Antalet sekunder mellan varje återförsök.
Säkra utdata: När den är markerad registreras inte utdata från aktiviteten i loggningen.
Säkra indata: När den är markerad registreras inte indata från aktiviteten i loggningen.
Fliken Inställningar
På den här panelen kan du referera till Spark-jobbdefinitionen som ska köras.
Expandera spark-jobbdefinitionslistan. Du kan välja en befintlig Apache Spark-jobbdefinition. Du kan också skapa en ny Apache Spark-jobbdefinition genom att välja knappen Ny för att referera till Spark-jobbdefinitionen som ska köras.
(Valfritt) Du kan fylla i information för Apache Spark-jobbdefinition. Om följande inställningar är tomma används inställningarna för själva spark-jobbdefinitionen för att köras. Om följande inställningar inte är tomma ersätter inställningarna för själva spark-jobbdefinitionen.
Egenskap Beskrivning Huvuddefinitionsfil Huvudfilen som används för jobbet. Välj en PY/JAR/ZIP-fil från lagringen. Du kan välja Ladda upp fil för att ladda upp filen till ett lagringskonto.
Prov:abfss://…/path/to/wordcount.jar
Referenser från undermappar Genom att skanna undermappar från rotmappen i huvuddefinitionsfilen läggs dessa filer till som referensfiler. Mapparna med namnet "jars", "pyFiles", "files" eller "archives" genomsöks och mappnamnet är skiftlägeskänsligt. Huvudklassnamn Den fullständigt kvalificerade identifieraren eller huvudklassen som finns i huvuddefinitionsfilen.
Prov:WordCount
Kommandoradsargument Du kan lägga till kommandoradsargument genom att klicka på knappen Nytt . Det bör noteras att om du lägger till kommandoradsargument åsidosätts de kommandoradsargument som definieras av Spark-jobbdefinitionen.
Prov:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Apache Spark-pool Du kan välja Apache Spark-pool i listan. Python-kodreferens Ytterligare Python-kodfiler som används som referens i huvuddefinitionsfilen.
Det stöder överföring av filer (.py, .py3, .zip) till egenskapen "pyFiles". Den åsidosätter egenskapen "pyFiles" som definierats i Spark-jobbdefinitionen.Referensfiler Ytterligare filer som används som referens i huvuddefinitionsfilen. Dynamiskt allokera utförare Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för spark-programexekutorallokering. Min executors Minsta antal utförare som ska allokeras i den angivna Spark-poolen för jobbet. Maximalt antal utförare Maximalt antal utförare som ska allokeras i den angivna Spark-poolen för jobbet. Drivrutinsstorlek Antal kärnor och minne som ska användas för drivrutinen som anges i den angivna Apache Spark-poolen för jobbet. Apache Spark-konfiguration Ange värden för Spark-konfigurationsegenskaper som anges i avsnittet: Spark-konfiguration – Programegenskaper. Användare kan använda standardkonfiguration och anpassad konfiguration. Du kan lägga till dynamiskt innehåll genom att klicka på knappen Lägg till dynamiskt innehåll eller genom att trycka på kortkommandot Alt+Skift+D. På sidan Lägg till dynamiskt innehåll kan du använda valfri kombination av uttryck, funktioner och systemvariabler för att lägga till dynamiskt innehåll.
Fliken Användaregenskaper
Du kan lägga till egenskaper för Apache Spark-jobbdefinitionsaktivitet i den här panelen.
Nästa steg
Gå vidare till följande artiklar om du vill veta mer om stöd för Azure Synapse Analytics:
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för