Använda versionskontrollerad källkod i ett Azure Databricks-jobb

Du kan köra jobb med hjälp av notebook-filer eller Python-kod som finns på en fjärransluten Git-lagringsplats eller en Databricks Git-mapp. Den här funktionen förenklar skapandet och hanteringen av produktionsjobb och automatiserar kontinuerlig distribution:

  • Du behöver inte skapa en separat produktionslagringsplats i Azure Databricks, hantera dess behörigheter och hålla den uppdaterad.
  • Du kan förhindra oavsiktliga ändringar i ett produktionsjobb, till exempel lokala ändringar i produktionslagringsplatsen eller ändringar från att växla en gren.
  • Jobbdefinitionsprocessen har en enda sanningskälla på fjärrlagringsplatsen och varje jobbkörning är länkad till en incheckningshash.

Om du vill använda källkod på en fjärransluten Git-lagringsplats måste du konfigurera Databricks Git-mappar (Repos).

Kommentar

Om jobbet körs med tjänstens huvudnamn som identitet kan du konfigurera tjänstens huvudnamn i Git-mappen som innehåller jobbets källkod. Se Använda tjänstens huvudnamn med Databricks Git-mappar.

Använda en notebook-fil från en fjärransluten Git-lagringsplats

Så här skapar du en uppgift med en notebook-fil på en fjärransluten Git-lagringsplats:

  1. Klicka på JobbikonArbetsflöden i sidofältet och klicka Knappen Skapa jobb eller gå till ett befintligt jobb och lägg till en ny aktivitet.

  2. Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.

  3. Ange ett namn på aktiviteten i fältet Aktivitetsnamn .

  4. I listrutan Typ väljer du Anteckningsbok.

  5. I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.

  6. I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.

    För Sökväg anger du en relativ sökväg till notebook-platsen, till exempel etl/notebooks/.

    När du anger den relativa sökvägen ska du inte börja med eller ./, och ta inte med / filnamnstillägget för notebook-filen, till exempel .py. Om den absoluta sökvägen för anteckningsboken som du vill komma åt till exempel är /notebooks/covid_eda_raw.pyanger du notebooks/covid_eda_raw i fältet Sökväg.

  7. Klicka på Skapa.

Använda Python-kod från en fjärransluten Git-lagringsplats

Så här skapar du en uppgift med Python-kod på en fjärransluten Git-lagringsplats:

  1. Klicka på JobbikonArbetsflöden i sidofältet och klicka Knappen Skapa jobb eller gå till ett befintligt jobb och lägg till en ny aktivitet.

  2. Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.

  3. Ange ett namn på aktiviteten i fältet Aktivitetsnamn .

  4. I listrutan Typ väljer du Python-skript.

  5. I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.

  6. I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.

    För Sökväg anger du en relativ sökväg till källplatsen, till exempel etl/python/python_etl.py.

    När du anger den relativa sökvägen ska du inte börja med / eller ./. Om den absoluta sökvägen för Python-koden som du vill komma åt till exempel är /python/covid_eda_raw.pyanger du python/covid_eda_raw.py i fältet Sökväg.

  7. Klicka på Skapa.

När du visar körningshistoriken för en aktivitet som kör Python-kod som lagras på en fjärransluten Git-lagringsplats innehåller panelen Aktivitetskörningsinformation Git-information, inklusive inchecknings-SHA som är associerad med körningen.

Använda SQL-frågor från en fjärransluten Git-lagringsplats

Kommentar

Endast en SQL-instruktion stöds i en fil. Flera SQL-instruktioner avgränsade med semikolon (;) tillåts inte.

Så här kör du frågor som lagras i .sql filer som finns på en fjärransluten Git-lagringsplats:

  1. Klicka på JobbikonArbetsflöden i sidofältet och klicka Knappen Skapa jobb eller gå till ett befintligt jobb och lägg till en ny aktivitet.

  2. Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.

  3. Ange ett namn på aktiviteten i fältet Aktivitetsnamn .

  4. I listrutan Typ väljer du SQL.

  5. I listrutan SQL-uppgift väljer du Arkiv.

  6. I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.

  7. I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.

    För Sökväg anger du en relativ sökväg till källplatsen, till exempel queries/sql/myquery.sql.

    När du anger den relativa sökvägen ska du inte börja med / eller ./. Om den absoluta sökvägen för den SQL-fråga som du vill komma åt till exempel är /sql/myqeury.sqlanger du sql/myquery.sql i fältet Sökväg.

  8. Välj ett SQL-lager. Du måste välja ett serverlöst SQL-lager eller ett pro SQL-lager.

  9. Klicka på Skapa.

Lägga till ytterligare uppgifter från en fjärransluten Git-lagringsplats

Ytterligare uppgifter i ett multitask-jobb kan referera till samma incheckning på fjärrlagringsplatsen på något av följande sätt:

  • sha av $branch/head när git_branch har angetts
  • sha av $tag när git_tag har angetts
  • värdet för git_commit

Du kan blanda notebook- och Python-uppgifter i ett Azure Databricks-jobb, men de måste använda samma Git-referens.

Använda en Databricks Git-mapp

Om du föredrar att använda Azure Databricks-användargränssnittet för att versionsstyra källkoden klonar du lagringsplatsen till en Databricks Git-mapp. Mer information finns i Alternativ 2: Konfigurera en Git-produktionsmapp och Git-automatisering.

Om du vill lägga till en notebook-fil eller Python-kod från en Git-mapp i en jobbuppgift går du till den nedrullningsbara menyn Källa och väljer Arbetsyta och anger sökvägen till notebook-filen eller Python-koden i Sökväg.

Få åtkomst till notebook-filer från en IDE

Om du behöver komma åt notebook-filer från en integrerad utvecklingsmiljö kontrollerar du att du har kommentaren # Databricks notebook source överst i notebook-källkodsfilen. För att skilja mellan en vanlig Python-fil och en Azure Databricks Python-språkanteckningsbok som exporteras i källkodsformat lägger Databricks till raden # Databricks notebook source överst i notebook-källkodsfilen. När du importerar notebook-filen identifierar Azure Databricks den och importerar den som en notebook-fil, inte som en Python-modul.

Felsökning

Kommentar

Git-baserade jobb stöder inte skrivåtkomst till arbetsytefiler. Om du vill skriva data till en tillfällig lagringsplats använder du drivrutinslagring. Om du vill skriva beständiga data från ett Git-jobb använder du en UC-volym eller DBFS.

Felmeddelande:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Möjliga orsaker:

Anteckningsboken saknar kommentaren # Databricks notebook source överst i anteckningsbokens källkodsfil, eller i kommentaren, notebook är versal när den måste börja med gemener n.