Konfigurera och redigera Databricks-jobb

Artikel
10/05/2024

Den här artikeln fokuserar på instruktioner för att skapa, konfigurera och redigera jobb med hjälp av arbetsflödens arbetsytegränssnitt. Azure Databricks har andra startpunkter och verktyg för konfiguration, inklusive följande:

Mer information om hur du använder Databricks CLI för att skapa och köra jobb finns i Vad är Databricks CLI?.
Mer information om hur du använder jobb-API:et för att skapa och köra jobb finns i Jobb i REST API-referensen.
Information om hur du kör och schemalägger jobb direkt i en Databricks-notebook-fil finns i Skapa och hantera schemalagda notebook-jobb.

Dricks

Om du vill visa ett jobb som YAML klickar du på menyn kebab till vänster om Kör nu för jobbet och klickar sedan på Växla till kodversion (YAML).

Skapa ett nytt jobb

I det här avsnittet beskrivs den minsta konfiguration som krävs för att skapa ett nytt jobb för att schemalägga en notebook-uppgift med arbetsytans användargränssnitt.

Jobb innehåller en eller flera uppgifter. Du skapar ett nytt jobb genom att konfigurera den första uppgiften för jobbet.

Kommentar

Varje aktivitetstyp har dynamiska konfigurationsalternativ i arbetsytans användargränssnitt. Se Konfigurera och redigera Databricks-uppgifter.

Klicka på Arbetsflöden i sidofältet och klicka på .
Ange ett aktivitetsnamn.
Välj en notebook-fil för fältet Sökväg .
Klicka på Skapa uppgift.

Om arbetsytan inte är aktiverad för serverlös beräkning för jobb måste du välja ett beräkningsalternativ . Databricks rekommenderar att du alltid använder jobbberäkning när du konfigurerar uppgifter.

Ett nytt jobb visas i arbetsytans jobblista med standardnamnet New Job <date> <time>.

Välj ett jobb som ska redigeras på arbetsytan

Om du vill redigera ett befintligt jobb med arbetsytans användargränssnitt gör du följande:

Klicka på Arbetsflöden i sidofältet.
Klicka på jobbnamnet i kolumnen Namn.

Använd jobbgränssnittet för att göra följande:

Redigera jobbinställningar
Byta namn på, klona eller ta bort ett jobb
Lägga till nya uppgifter i ett befintligt jobb
Redigera aktivitetsinställningar

Kommentar

Du kan också visa JSON-definitionerna för användning med REST API : hämtar, skapar och återställer slutpunkter.

Redigera jobbinställningar

Sidopanelen innehåller jobbinformationen. Du kan ändra jobbutlösaren, beräkningskonfigurationen, meddelanden, det maximala antalet samtidiga körningar, konfigurera tröskelvärden för varaktighet och lägga till eller ändra taggar. Du kan också redigera jobbbehörigheter om jobbåtkomstkontroll är aktiverad.

Lägga till parametrar för alla jobbaktiviteter

Parametrar som konfigurerats på jobbnivå skickas till jobbets uppgifter som accepterar nyckel/värde-parametrar, inklusive Python-hjulfiler som har konfigurerats för att acceptera nyckelordsargument. Se Parameterisera jobb.

Lägga till taggar i ett jobb

Om du vill lägga till etiketter eller nyckel/värde-attribut i jobbet kan du lägga till taggar när du redigerar jobbet. Du kan använda taggar för att filtrera jobb i listan Jobb. Du kan till exempel använda en department tagg för att filtrera alla jobb som tillhör en viss avdelning.

Kommentar

Eftersom jobbtaggar inte är utformade för att lagra känslig information, till exempel personligt identifierbar information eller lösenord, rekommenderar Databricks att du endast använder taggar för icke-känsliga värden.

Taggar sprids också till jobbkluster som skapas när ett jobb körs, så att du kan använda taggar med din befintliga klusterövervakning.

Klicka på + Tagga på panelen Jobbinformation för att lägga till eller redigera taggar. Du kan lägga till taggen som en etikett eller nyckel/värde-par. Om du vill lägga till en etikett anger du etiketten i fältet Nyckel och lämnar fältet Värde tomt.

Byta namn på, klona eller ta bort ett jobb

Om du vill byta namn på ett jobb går du till jobbgränssnittet och klickar på jobbnamnet.

Du kan snabbt skapa ett nytt jobb genom att klona ett befintligt jobb. Kloning av ett jobb skapar en identisk kopia av jobbet förutom jobb-ID:t. Gör följande för att klona ett jobb:

Gå till jobbgränssnittet för jobbet.
Klicka bredvid knappen Kör nu .
Välj Klona jobb på den nedrullningsbara menyn.
Ange ett namn för det klonade jobbet.
Klicka på Klona.

Ta bort ett jobb

Om du vill ta bort ett jobb går du till jobbsidan, klickar bredvid jobbnamnet och väljer Ta bort jobb på den nedrullningsbara menyn.

Använda Git med jobb

Om jobbet innehåller uppgifter som stöder användning av en fjärransluten Git-provider innehåller jobbgränssnittet ett Git-fält och alternativet att lägga till eller redigera Git-inställningar.

Du kan konfigurera följande aktivitetstyper för att använda en fjärransluten Git-lagringsplats:

Notebook-filer
Python-skript
SQL-filer
dbt

Alla aktiviteter i ett jobb måste referera till samma incheckning på fjärrlagringsplatsen. Du måste bara ange något av följande för ett jobb som använder en fjärrlagringsplats:

branch: Namnet på grenen, till exempel main.
tag: Taggens namn, till exempel release-1.0.0.
commit: Hashen för en specifik incheckning, e0056d01till exempel .

När en jobbkörning börjar tar Databricks en ögonblicksbild av fjärrlagringsplatsen för att säkerställa att hela jobbet körs mot samma kodversion.

När du visar körningshistoriken för en aktivitet som kör kod som lagras på en fjärransluten Git-lagringsplats innehåller panelen Aktivitetskörningsinformation Git-information, inklusive inchecknings-SHA som är associerad med körningen. Se Visa aktivitetskörningshistorik.

Kommentar

Uppgifter som konfigurerats för att använda en fjärransluten Git-lagringsplats kan inte skriva till arbetsytefiler. De måste skriva tillfälliga data till tillfällig drivrutinslagring och beständiga data till en volym eller tabell.

Databricks rekommenderar att du skapar jobb som refererar till arbetsytesökvägar i Git-mappar för snabb iteration och testning under utveckling. Databricks rekommenderar att du konfigurerar om jobb för att referera till en fjärransluten Git-lagringsplats när du går över till mellanlagring och produktion. Läs mer om versionskontrollerad källkod i ett Databricks-jobb.

Konfigurera en Git-provider

Jobbgränssnittet har en dialogruta för att konfigurera en fjärransluten Git-lagringsplats. Den här dialogrutan är tillgänglig från panelen Jobbinformation under Git-rubriken eller i en uppgift som har konfigurerats för att använda en Git-provider.

Vilka alternativ som visas för att komma åt dialogrutan varierar beroende på aktivitetstyp och om en git-referens redan har konfigurerats för jobbet. Knappar för att starta dialogrutan inkluderar Lägg till Git-inställningar, Redigera eller Lägg till en git-referens.

I dialogrutan Git Information (bara märkt Git om åtkomst via panelen Jobbinformation) anger du följande information:

Url:en för Git-lagringsplatsen.
Välj din Git-provider i listrutan.
I Git-referensfältet anger du identifieraren för en gren, tagg eller incheckning som motsvarar den version av källkoden som du vill köra.
Välj gren, tagga eller checka in från listrutan.

Kommentar

Dialogrutan kan fråga dig med följande: Git-autentiseringsuppgifter för det här kontot saknas. Lägg till autentiseringsuppgifter. Du måste konfigurera en fjärransluten Git-lagringsplats innan du använder den som referens. Se Konfigurera Databricks Git-mappar (Repos).

Konfigurera en förväntad slutförandetid eller en tidsgräns för ett jobb

Du kan konfigurera valfria tröskelvärden för varaktighet för ett jobb, inklusive en förväntad och maximal slutförandetid. Om du vill konfigurera tröskelvärden för varaktighet klickar du på Ange tröskelvärden för varaktighet under Tröskelvärden för varaktighet i panelen Jobbinformation .

Ange en varaktighet i fältet Varning för att konfigurera jobbets förväntade slutförandetid. Om jobbet överskrider det här tröskelvärdet utlöses en händelse. Du kan använda den här händelsen för att meddela när ett jobb körs långsamt. Se Konfigurera meddelanden för jobb som körs långsamt eller sent.

Om du vill konfigurera en maximal slutförandetid för ett jobb anger du den maximala varaktigheten i fältet Tidsgräns . Om jobbet inte slutförs under den här tiden anger Azure Databricks statusen "Tidsgränsen har överskriden tidsgräns".

Du kan också ange tröskelvärden för varaktighet för aktiviteter. Se Konfigurera en förväntad slutförandetid eller en tidsgräns för en aktivitet.

Dela via

Konfigurera och redigera Databricks-jobb

Skapa ett nytt jobb

Välj ett jobb som ska redigeras på arbetsytan

Redigera jobbinställningar

Lägga till parametrar för alla jobbaktiviteter

Lägga till taggar i ett jobb

Byta namn på, klona eller ta bort ett jobb

Ta bort ett jobb

Använda Git med jobb

Konfigurera en Git-provider

Konfigurera en förväntad slutförandetid eller en tidsgräns för ett jobb

Feedback

Ytterligare resurser