Použití zdrojového kódu řízeného verzí v úloze Azure Databricks
Úlohy můžete spouštět pomocí poznámkových bloků nebo kódu Pythonu umístěných ve vzdáleném úložišti Git nebo ve složce Git Databricks. Tato funkce zjednodušuje vytváření a správu produkčních úloh a automatizuje průběžné nasazování:
- V Azure Databricks nemusíte vytvářet samostatné produkční úložiště, spravovat jeho oprávnění a aktualizovat ho.
- Neúmyslným změnám v produkční úloze můžete zabránit, například místní úpravy v produkčním úložišti nebo změny v přepnutí větve.
- Proces definice úlohy má ve vzdáleném úložišti jediný zdroj pravdy a každé spuštění úlohy je propojené s hodnotou hash potvrzení.
Pokud chcete zdrojový kód používat ve vzdáleném úložišti Git, musíte nastavit složky Gitu (Repos) Databricks.
Poznámka:
Pokud se vaše úloha spouští jako identita pomocí instančního objektu, můžete instanční objekt nakonfigurovat ve složce Git obsahující zdrojový kód úlohy. Viz Použití instančního objektu se složkami Databricks Git.
Použití poznámkového bloku ze vzdáleného úložiště Git
Vytvoření úkolu s poznámkovým blokem umístěným ve vzdáleném úložišti Git:
Na bočním panelu klikněte na Pracovní postupy a klikněte nebo přejděte na existující úlohu a přidejte nový úkol.
Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.
Do pole Název úkolu zadejte název úkolu.
V rozevírací nabídce Typ vyberte Poznámkový blok.
V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.
V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.
Jako cestu zadejte relativní cestu k umístění poznámkového bloku, například
etl/notebooks/
.Když zadáte relativní cestu, nezačínejte ji
/
nebo./
nezahrnujte příponu souboru poznámkového bloku, například.py
. Pokud je například absolutní cesta k poznámkovému bloku, ke které chcete získat přístup/notebooks/covid_eda_raw.py
, zadejtenotebooks/covid_eda_raw
do pole Cesta.Klikněte na Vytvořit.
Použití kódu Pythonu ze vzdáleného úložiště Git
Vytvoření úlohy s kódem Pythonu umístěným ve vzdáleném úložišti Git:
Na bočním panelu klikněte na Pracovní postupy a klikněte nebo přejděte na existující úlohu a přidejte nový úkol.
Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.
Do pole Název úkolu zadejte název úkolu.
V rozevírací nabídce Typ vyberte skript Pythonu.
V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.
V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.
Do pole Cesta zadejte relativní cestu ke zdrojovému umístění, například
etl/python/python_etl.py
.Když zadáte relativní cestu, nezačínejte s
/
ní nebo./
. Pokud je například absolutní cesta kódu Pythonu, ke které chcete získat přístup/python/covid_eda_raw.py
, zadejtepython/covid_eda_raw.py
do pole Cesta.Klikněte na Vytvořit.
Když zobrazíte historii spuštění úlohy, která spouští kód Pythonu uložený ve vzdáleném úložišti Git, obsahuje panel podrobností o spuštění úlohy podrobnosti o Gitu, včetně algoritmu SHA potvrzení přidruženého ke spuštění.
Použití dotazů SQL ze vzdáleného úložiště Git
Poznámka:
V souboru je podporován pouze jeden příkaz SQL. Více příkazů SQL oddělených středníky (;) nejsou povoleny.
Spouštění dotazů uložených v .sql
souborech umístěných ve vzdáleném úložišti Git:
Na bočním panelu klikněte na Pracovní postupy a klikněte nebo přejděte na existující úlohu a přidejte nový úkol.
Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.
Do pole Název úkolu zadejte název úkolu.
V rozevírací nabídce Typ vyberte SQL.
V rozevírací nabídce úkolu SQL vyberte Soubor.
V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.
V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.
Do pole Cesta zadejte relativní cestu ke zdrojovému umístění, například
queries/sql/myquery.sql
.Když zadáte relativní cestu, nezačínejte s
/
ní nebo./
. Pokud je například absolutní cesta pro dotaz SQL, ke který chcete získat přístup/sql/myqeury.sql
, zadejtesql/myquery.sql
do pole Cesta.Vyberte SQL Warehouse. Musíte vybrat bezserverový SQL Warehouse nebo pro SQL Warehouse.
Klikněte na Vytvořit.
Přidání dalších úloh ze vzdáleného úložiště Git
Další úlohy v úloze s více úkoly můžou odkazovat na stejné potvrzení ve vzdáleném úložišti jedním z následujících způsobů:
sha
$branch/head
kdygit_branch
je nastavenásha
$tag
kdygit_tag
je nastavená- hodnota
git_commit
Úlohy poznámkového bloku a Pythonu můžete kombinovat v úloze Azure Databricks, ale musí používat stejný odkaz na Git.
Použití složky Git Databricks
Pokud dáváte přednost použití uživatelského rozhraní Azure Databricks ke správě verzí zdrojového kódu, naklonujte úložiště do složky Databricks Git. Další informace najdete v tématu 2. možnost: Nastavení produkční složky Git a automatizace Gitu.
Pokud chcete do úlohy úlohy přidat poznámkový blok nebo kód Pythonu ze složky Git, vyberte v rozevírací nabídce Zdroj pracovní prostor a zadejte cestu k poznámkovému bloku nebo kódu Pythonu v cestě.
Přístup k poznámkovému bloku z integrovaného vývojového prostředí (IDE)
Pokud potřebujete získat přístup k poznámkovému bloku z integrovaného vývojového prostředí, ujistěte se, že máte komentář # Databricks notebook source
v horní části souboru zdrojového kódu poznámkového bloku. Pro rozlišení mezi běžným souborem Pythonu a poznámkovým blokem Jazyka Python v Azure Databricks exportovaným ve formátu zdrojového kódu přidá Databricks řádek # Databricks notebook source
v horní části souboru zdrojového kódu poznámkového bloku. Když poznámkový blok naimportujete, Azure Databricks ho rozpozná a naimportuje jako poznámkový blok, ne jako modul Pythonu.
Řešení problému
Poznámka:
Úlohy založené na Gitu nepodporují přístup k zápisu k souborům pracovního prostoru. Pokud chcete zapisovat data do dočasného umístění úložiště, použijte úložiště ovladačů. K zápisu trvalých dat z úlohy Git použijte svazek UC nebo DBFS.
Chybová zpráva:
Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook
Možné příčiny:
V poznámkovém bloku chybí komentář # Databricks notebook source
v horní části souboru zdrojového kódu poznámkového bloku nebo v komentáři je velká písmena, notebook
když musí začínat malými písmeny n
.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro