Dela via


Konfigurera och redigera Lakeflow-jobb

Du kan skapa och köra ett jobb med hjälp av jobbgränssnittet eller utvecklarverktyg som Databricks CLI eller REST-API:et. Med hjälp av användargränssnittet eller API:et kan du reparera och köra ett misslyckat eller avbrutet jobb igen. Den här artikeln visar hur du skapar, konfigurerar och redigerar jobb i arbetsytan Jobb & Pipelines. Information om andra verktyg finns i följande:

  • Mer information om hur du använder Databricks CLI för att skapa och köra jobb finns i Vad är Databricks CLI?.
  • Mer information om hur du använder jobb-API:et för att skapa och köra jobb finns i Jobb i REST API-referensen.
  • Om du föredrar en IaC-metod (infrastruktur som kod) för att konfigurera jobb kan du använda Databricks-tillgångspaket. Mer information om hur du använder paket för att konfigurera och samordna dina jobb finns i Databricks Asset Bundles.
  • Information om hur du kör och schemalägger jobb direkt i en Databricks-notebook-fil finns i Skapa och hantera schemalagda notebook-jobb.

Tips

Om du vill visa ett jobb som YAML klickar du på menyn kebab till vänster om Kör nu för jobbet och klickar sedan på Växla till kodversion (YAML).

Vilken är den minsta konfiguration som krävs för ett jobb?

Alla jobb i Azure Databricks kräver följande:

  • En uppgift som innehåller logik som ska köras, till exempel en Databricks-notebook-fil. Se Konfigurera och redigera uppgifter i Lakeflow-jobb
  • En beräkningsresurs för att köra logiken. Beräkningsresursen kan vara serverlös beräkning, klassisk jobbberäkning eller all-purpose compute. Se Konfigurera beräkning för jobb.
  • Ett angivet schema för när jobbet ska köras. Du kan också utelämna att ange ett schema och utlösa jobbet manuellt.
  • Ett unikt namn.

Skapa ett nytt jobb

I det här avsnittet beskrivs stegen för att skapa ett nytt jobb med en notebook-uppgift och schemalägga med arbetsytans användargränssnitt.

Jobb innehåller en eller flera uppgifter. Du skapar ett nytt jobb genom att konfigurera den första uppgiften för jobbet.

Anteckning

Varje aktivitetstyp har dynamiska konfigurationsalternativ i arbetsytans användargränssnitt. Se Konfigurera och redigera uppgifter i Lakeflow-jobb.

  1. På arbetsytan klickar du på Arbetsflöden-ikonen.Jobb och pipelines i sidofältet.
  2. Under Nytt klickar du på Jobb.
  3. Ange ett aktivitetsnamn.
  4. Välj en anteckningsbok för fältet Sökväg.
  5. Klicka på Skapa uppgift.

Om arbetsytan inte är aktiverad för serverlös beräkning för jobb måste du välja alternativet Compute. Databricks rekommenderar att du alltid använder jobbberäkning när du konfigurerar uppgifter.

Ett nytt jobb visas i listan över arbetsytejobb med standardnamnet New Job <date> <time>.

Du kan fortsätta att lägga till fler uppgifter i samma jobb om det behövs för arbetsflödet. Jobb med fler än 100 aktiviteter kan ha särskilda krav. Mer information finns i Jobb med ett stort antal aktiviteter.

Schemalägga ett jobb

Du kan bestämma när jobbet ska köras. Som standard körs den bara när du startar den manuellt, men du kan också konfigurera den så att den körs automatiskt. Du kan skapa en utlösare för att köra ett jobb enligt ett schema eller baserat på en händelse.

Kontrollera flödet av uppgifter i jobbet

När du konfigurerar flera uppgifter i jobb kan du använda specialiserade uppgifter för att styra hur aktiviteterna körs. Se Kontrollera flödet av uppgifter i Lakeflow-jobb.

Välj ett jobb att redigera i arbetsområdet

Om du vill redigera ett befintligt jobb med arbetsytans användargränssnitt gör du följande:

  1. I sidofältet i Azure Databricks-arbetsytan klickar du på Jobb och Pipelines.
  2. Valfritt kan du välja filtren Jobb och Ägs av mig.
  3. Klicka på jobbets namnlänk .

Använd jobbgränssnittet för att göra följande:

  • Redigera jobbinställningar
  • Byta namn på, klona eller ta bort ett jobb
  • Lägga till nya uppgifter i ett befintligt jobb
  • Redigera aktivitetsinställningar

Anteckning

Du kan också visa JSON-definitionerna för användning med REST API hämta, skapaoch återställa slutpunkter.

Redigera jobbinställningar

Sidopanelen innehåller jobbinformationen. Du kan ändra jobbutlösaren, beräkningskonfigurationen, meddelanden, det maximala antalet samtidiga körningar, konfigurera tröskelvärden för varaktighet och lägga till eller ändra taggar. Du kan också redigera jobbbehörigheter om jobbåtkomstkontroll är aktiverad.

Lägg till parametrar för alla jobbaktiviteter

Parametrar som konfigurerats på jobbnivå skickas till jobbets uppgifter som accepterar nyckel/värde-parametrar, inklusive Python-hjulfiler som har konfigurerats för att acceptera nyckelordsargument. Se Parameterisera jobb.

Lägga till taggar i ett jobb

Om du vill lägga till etiketter eller nyckel/värde-attribut i jobbet kan du lägga till taggar när du redigerar jobbet. Du kan använda taggar för att filtrera jobb i Jobb-listan . Du kan till exempel använda en department tagg för att filtrera alla jobb som tillhör en viss avdelning.

Anteckning

Eftersom jobbtaggar inte är utformade för att lagra känslig information, till exempel personligt identifierbar information eller lösenord, rekommenderar Databricks att du endast använder taggar för icke-känsliga värden.

Taggar sprids också till jobbkluster som skapas när ett jobb körs, så att du kan använda taggar med din befintliga klusterövervakning.

Klicka på + Taggapanelen Jobbinformation för att lägga till eller redigera taggar. Du kan lägga till taggen som en etikett eller nyckel/värde-par. Om du vill lägga till en etikett anger du etiketten i fältet Nyckel och lämnar fältet Värde tomt.

Lägga till en serverlös budgetprincip i ett jobb

Viktig

Den här funktionen finns i offentlig förhandsversion.

Om din arbetsyta använder serverlösa budgetprinciper för att fördela kostnader för serverlös användning kan du välja din jobbs serverlösa budgetprincip med hjälp av inställningen Budgetprincip i sidopanelen Jobbinformation. Se Attributanvändning med serverlösa budgetprinciper.

Byta namn på, klona eller ta bort ett jobb

Om du vill byta namn på ett jobb går du till jobbgränssnittet och klickar på jobbnamnet.

Du kan snabbt skapa ett nytt jobb genom att klona ett befintligt jobb. Kloning av ett jobb skapar en identisk kopia av jobbet förutom jobb-ID:t. Gör följande för att klona ett jobb:

  1. Gå till jobbgränssnittet för jobbet.
  2. Klicka på Menyikonen för Kebab. Bredvid knappen Kör nu .
  3. Välj Klona jobb i den nedrullningsbara menyn.
  4. Ange ett namn för det klonade jobbet.
  5. Klicka på Klona.

Ta bort ett jobb

Om du vill ta bort ett jobb går du till jobbsidan, klickar på Menyikonen För Kebab. Bredvid jobbnamnet väljer du Ta bort jobb på den nedrullningsbara menyn.

Använda Git med jobb

Om jobbet innehåller uppgifter som stöder användning av en fjärransluten Git-provider innehåller jobbgränssnittet ett Git-fält och alternativet att lägga till eller redigera Git-inställningar.

Du kan konfigurera följande aktivitetstyper för att använda en fjärransluten Git-lagringsplats:

  • Anteckningsböcker
  • Python-skript
  • SQL-filer
  • dbt

Alla uppgifter i ett jobb måste referera till samma åtagande i fjärrarkivet. Du måste bara ange något av följande för ett jobb som använder en fjärrlagringsplats:

  • branch: Namnet på grenen, till exempel main.
  • tag: Taggens namn, till exempel release-1.0.0.
  • commit: Hashen för en specifik commit, till exempel e0056d01.

När en jobbkörning börjar tar Databricks en ögonblicksbild av fjärrlagringsplatsen för att säkerställa att hela jobbet körs mot samma kodversion.

När du visar körningshistoriken för en aktivitet som kör kod som lagras på en fjärransluten Git-lagringsplats innehåller panelen Aktivitetskörningsinformation Git-information, inklusive inchecknings-SHA som är associerad med körningen. Se Visa uppgiftshistorik.

Anteckning

Uppgifter som konfigurerats för att använda en fjärransluten Git-lagringsplats kan inte skriva till arbetsytefiler. Dessa uppgifter måste skriva tillfälliga data till en tillfällig lagring kopplad till masternoden för den beräkningsenhet som är konfigurerad för att köra uppgiften, och beständiga data till en volym eller tabell.

Databricks rekommenderar att du refererar till arbetsytesökvägar i Git-mappar endast för snabb iteration och testning under utveckling. När du flyttar jobb till mellanlagring och produktion rekommenderar Databricks att du konfigurerar dessa jobb för att referera till en fjärransluten Git-lagringsplats. Mer information om hur du använder en fjärransluten Git-lagringsplats med ett Databricks-jobb finns i följande avsnitt.

Konfigurera en Git-leverantör

Jobbgränssnittet har en dialogruta för att konfigurera en fjärransluten Git-lagringsplats. Den här dialogrutan är tillgänglig från panelen Jobbinformation under Git-rubriken eller i en uppgift som har konfigurerats för att använda en Git-provider.

Vilka alternativ som visas för att komma åt dialogrutan varierar beroende på aktivitetstyp och om en git-referens redan har konfigurerats för jobbet. Knappar för att starta dialogrutan inkluderar Lägg till Git-inställningar, Redigera eller Lägg till en git-referens.

I dialogrutan Git Information (bara märkt Git om åtkomst via panelen Jobbinformation) anger du följande information:

  • Url:en för Git-lagringsplatsen.
  • Välj din Git-provider i listrutan.
  • I fältet Git-referens anger du identifieraren för en gren, tagg eller incheckning som motsvarar den version av källkoden som du vill köra.
  • Välj gren, taggeller commit från listrutan.

Anteckning

Dialogrutan kan fråga dig följande: Git-autentiseringsuppgifter för det här kontot saknas. Lägg till autentiseringsuppgifter. Du måste konfigurera en fjärransluten Git-lagringsplats innan du använder den som referens. Se även Konfigurera Databricks Git-mappar.

Konfigurera tröskelvärden för jobbkörningens tidslängd eller mått för streaming-backlog.

Viktig

Strömningsobservabilitet för Lakeflow-jobb är tillgänglig i offentlig förhandsversion.

Du kan konfigurera valfria tröskelvärden för jobbkörningens varaktighet eller mått för strömmande kvarvarande uppgifter. Om du vill konfigurera tröskelvärden för varaktighet eller strömningsmått klickar du på tröskelvärden för varaktighet och strömning av kvarvarande uppgifter i jobbinformation panelen.

Om du vill konfigurera tröskelvärden för jobbvaraktighet, inklusive förväntade och maximala slutförandetider för jobbet, väljer du Kör varaktighet i listrutan Metric. Ange en varaktighet i fältet Varning för att konfigurera jobbets förväntade slutförandetid. Om jobbet överskrider det här tröskelvärdet utlöses en händelse. Du kan använda den här händelsen för att informera när ett jobb körs långsamt. Se Konfigurera meddelanden för långsamma jobb. Om du vill konfigurera en maximal slutförandetid för ett jobb anger du den maximala varaktigheten i fältet Tidsgräns . Om jobbet inte slutförs under den här tiden ändrar Azure Databricks statusen till "Tidsgräns överskriden".

Om du vill konfigurera ett tröskelvärde för ett strömningsmått för kvarvarande uppgifter väljer du måttet i listrutan Mått och anger ett värde för tröskelvärdet. Mer information om de specifika mått som stöds av en strömningskälla finns i Visa mått för strömningsuppgifter.

Om en händelse utlöses på grund av att ett tröskelvärde överskrids kan du använda händelsen för att skicka ett meddelande. Se Konfigurera meddelanden för långsamma jobb.

Du kan också ange tröskelvärden för varaktighet för aktiviteter. Se Konfigurera tröskelvärden för varaktighet för aktivitetskörning eller mått för strömning av kvarvarande uppgifter.

Aktivera kö för jobb

Anteckning

Köning är aktiverat som standard för jobb som skapats via användargränssnittet efter den 15 april 2024.

Om du vill förhindra att körningar av ett jobb hoppas över på grund av samtidighetsgränser, kan du aktivera köhantering för jobbet. När köning är aktiverat placeras körningen i kö i upp till 48 timmar om resurserna inte är tillgängliga för en jobbkörning. När kapacitet finns tillgänglig tas jobbet bort från kön och körs. Köade körningar visas i listan över körningar för jobbet och listan över de senaste jobbkörningarna.

En körning placeras i kö när någon av följande gränser har nåtts:

  • Maximalt antal samtidiga aktiva körningar i arbetsområdet.
  • Den maximala samtidiga Run Job aktiviteten körs på arbetsytan.
  • Maximalt antal samtidiga körningar av jobbet.

Köhantering är en egenskap på jobbnivå som säkerställer att körningar endast köas för det specifika jobbet.

Om du vill aktivera eller inaktivera köning klickar du på Avancerade inställningar och klickar på knappen Köväxlingsidan Jobbinformation .

Konfigurera maximala samtidiga körningar

Som standardinställning är det maximala antalet samtidiga körningar för alla nya jobb 1.

Klicka på Redigera samtidiga körningar under Avancerade inställningar för att ange det här jobbets maximala antal parallella körningar.

Azure Databricks hoppar över körningen om ett jobb redan har nått sitt maximala antal aktiva körningar när ett försök att starta en ny körning görs.

Ange ett värde högre än 1 för att möjliggöra flera parallella körningar av samma jobb. Det här är till exempel användbart om du utlöser ditt jobb enligt ett frekvent schema och vill aktivera efterföljande körningar för att överlappa varandra eller utlösa flera körningar som skiljer sig åt genom sina indataparametrar.