Använda versionskontrollerad källkod i ett Azure Databricks-jobb
Du kan köra jobb med hjälp av notebook-filer eller Python-kod som finns på en fjärransluten Git-lagringsplats eller en Databricks Git-mapp. Den här funktionen förenklar skapandet och hanteringen av produktionsjobb och automatiserar kontinuerlig distribution:
- Du behöver inte skapa en separat produktionslagringsplats i Azure Databricks, hantera dess behörigheter och hålla den uppdaterad.
- Du kan förhindra oavsiktliga ändringar i ett produktionsjobb, till exempel lokala ändringar i produktionslagringsplatsen eller ändringar från att växla en gren.
- Jobbdefinitionsprocessen har en enda sanningskälla på fjärrlagringsplatsen och varje jobbkörning är länkad till en incheckningshash.
Om du vill använda källkod på en fjärransluten Git-lagringsplats måste du konfigurera Databricks Git-mappar (Repos).
Kommentar
Om jobbet körs med tjänstens huvudnamn som identitet kan du konfigurera tjänstens huvudnamn i Git-mappen som innehåller jobbets källkod. Se Använda tjänstens huvudnamn med Databricks Git-mappar.
Använda en notebook-fil från en fjärransluten Git-lagringsplats
Så här skapar du en uppgift med en notebook-fil på en fjärransluten Git-lagringsplats:
Klicka på Arbetsflöden i sidofältet och klicka eller gå till ett befintligt jobb och lägg till en ny aktivitet.
Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.
Ange ett namn på aktiviteten i fältet Aktivitetsnamn .
I listrutan Typ väljer du Anteckningsbok.
I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.
I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.
För Sökväg anger du en relativ sökväg till notebook-platsen, till exempel
etl/notebooks/
.När du anger den relativa sökvägen ska du inte börja med eller
./
, och ta inte med/
filnamnstillägget för notebook-filen, till exempel.py
. Om den absoluta sökvägen för anteckningsboken som du vill komma åt till exempel är/notebooks/covid_eda_raw.py
anger dunotebooks/covid_eda_raw
i fältet Sökväg.Klicka på Skapa.
Använda Python-kod från en fjärransluten Git-lagringsplats
Så här skapar du en uppgift med Python-kod på en fjärransluten Git-lagringsplats:
Klicka på Arbetsflöden i sidofältet och klicka eller gå till ett befintligt jobb och lägg till en ny aktivitet.
Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.
Ange ett namn på aktiviteten i fältet Aktivitetsnamn .
I listrutan Typ väljer du Python-skript.
I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.
I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.
För Sökväg anger du en relativ sökväg till källplatsen, till exempel
etl/python/python_etl.py
.När du anger den relativa sökvägen ska du inte börja med
/
eller./
. Om den absoluta sökvägen för Python-koden som du vill komma åt till exempel är/python/covid_eda_raw.py
anger dupython/covid_eda_raw.py
i fältet Sökväg.Klicka på Skapa.
När du visar körningshistoriken för en aktivitet som kör Python-kod som lagras på en fjärransluten Git-lagringsplats innehåller panelen Aktivitetskörningsinformation Git-information, inklusive inchecknings-SHA som är associerad med körningen.
Använda SQL-frågor från en fjärransluten Git-lagringsplats
Kommentar
Endast en SQL-instruktion stöds i en fil. Flera SQL-instruktioner avgränsade med semikolon (;) tillåts inte.
Så här kör du frågor som lagras i .sql
filer som finns på en fjärransluten Git-lagringsplats:
Klicka på Arbetsflöden i sidofältet och klicka eller gå till ett befintligt jobb och lägg till en ny aktivitet.
Om det här är ett nytt jobb ersätter du Lägg till ett namn för jobbet... med jobbets namn.
Ange ett namn på aktiviteten i fältet Aktivitetsnamn .
I listrutan Typ väljer du SQL.
I listrutan SQL-uppgift väljer du Arkiv.
I listrutan Källa väljer du Git-provider och klickar på Redigera eller Lägg till en git-referens. Dialogrutan Git-information visas.
I dialogrutan Git-information anger du information för lagringsplatsen, inklusive lagringsplatsens URL, Git-providern och Git-referensen. Den här Git-referensen kan vara en gren, en tagg eller en incheckning.
För Sökväg anger du en relativ sökväg till källplatsen, till exempel
queries/sql/myquery.sql
.När du anger den relativa sökvägen ska du inte börja med
/
eller./
. Om den absoluta sökvägen för den SQL-fråga som du vill komma åt till exempel är/sql/myqeury.sql
anger dusql/myquery.sql
i fältet Sökväg.Välj ett SQL-lager. Du måste välja ett serverlöst SQL-lager eller ett pro SQL-lager.
Klicka på Skapa.
Lägga till ytterligare uppgifter från en fjärransluten Git-lagringsplats
Ytterligare uppgifter i ett multitask-jobb kan referera till samma incheckning på fjärrlagringsplatsen på något av följande sätt:
sha
av$branch/head
närgit_branch
har angettssha
av$tag
närgit_tag
har angetts- värdet för
git_commit
Du kan blanda notebook- och Python-uppgifter i ett Azure Databricks-jobb, men de måste använda samma Git-referens.
Använda en Databricks Git-mapp
Om du föredrar att använda Azure Databricks-användargränssnittet för att versionsstyra källkoden klonar du lagringsplatsen till en Databricks Git-mapp. Mer information finns i Alternativ 2: Konfigurera en Git-produktionsmapp och Git-automatisering.
Om du vill lägga till en notebook-fil eller Python-kod från en Git-mapp i en jobbuppgift går du till den nedrullningsbara menyn Källa och väljer Arbetsyta och anger sökvägen till notebook-filen eller Python-koden i Sökväg.
Få åtkomst till notebook-filer från en IDE
Om du behöver komma åt notebook-filer från en integrerad utvecklingsmiljö kontrollerar du att du har kommentaren # Databricks notebook source
överst i notebook-källkodsfilen. För att skilja mellan en vanlig Python-fil och en Azure Databricks Python-språkanteckningsbok som exporteras i källkodsformat lägger Databricks till raden # Databricks notebook source
överst i notebook-källkodsfilen. När du importerar notebook-filen identifierar Azure Databricks den och importerar den som en notebook-fil, inte som en Python-modul.
Felsökning
Kommentar
Git-baserade jobb stöder inte skrivåtkomst till arbetsytefiler. Om du vill skriva data till en tillfällig lagringsplats använder du drivrutinslagring. Om du vill skriva beständiga data från ett Git-jobb använder du en UC-volym eller DBFS.
Felmeddelande:
Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook
Möjliga orsaker:
Anteckningsboken saknar kommentaren # Databricks notebook source
överst i anteckningsbokens källkodsfil, eller i kommentaren, notebook
är versal när den måste börja med gemener n
.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för