Použití zdrojového kódu řízeného verzí v úloze Azure Databricks

Úlohy můžete spouštět pomocí poznámkových bloků nebo kódu Pythonu umístěných ve vzdáleném úložišti Git nebo ve složce Git Databricks. Tato funkce zjednodušuje vytváření a správu produkčních úloh a automatizuje průběžné nasazování:

  • V Azure Databricks nemusíte vytvářet samostatné produkční úložiště, spravovat jeho oprávnění a aktualizovat ho.
  • Neúmyslným změnám v produkční úloze můžete zabránit, například místní úpravy v produkčním úložišti nebo změny v přepnutí větve.
  • Proces definice úlohy má ve vzdáleném úložišti jediný zdroj pravdy a každé spuštění úlohy je propojené s hodnotou hash potvrzení.

Pokud chcete zdrojový kód používat ve vzdáleném úložišti Git, musíte nastavit složky Gitu (Repos) Databricks.

Poznámka:

Pokud se vaše úloha spouští jako identita pomocí instančního objektu, můžete instanční objekt nakonfigurovat ve složce Git obsahující zdrojový kód úlohy. Viz Použití instančního objektu se složkami Databricks Git.

Použití poznámkového bloku ze vzdáleného úložiště Git

Vytvoření úkolu s poznámkovým blokem umístěným ve vzdáleném úložišti Git:

  1. Na bočním panelu klikněte Ikona Úlohna Pracovní postupy a klikněte Tlačítko Vytvořit úlohu nebo přejděte na existující úlohu a přidejte nový úkol.

  2. Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.

  3. Do pole Název úkolu zadejte název úkolu.

  4. V rozevírací nabídce Typ vyberte Poznámkový blok.

  5. V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.

  6. V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.

    Jako cestu zadejte relativní cestu k umístění poznámkového bloku, například etl/notebooks/.

    Když zadáte relativní cestu, nezačínejte ji / nebo ./nezahrnujte příponu souboru poznámkového bloku, například .py. Pokud je například absolutní cesta k poznámkovému bloku, ke které chcete získat přístup /notebooks/covid_eda_raw.py, zadejte notebooks/covid_eda_raw do pole Cesta.

  7. Klikněte na Vytvořit.

Použití kódu Pythonu ze vzdáleného úložiště Git

Vytvoření úlohy s kódem Pythonu umístěným ve vzdáleném úložišti Git:

  1. Na bočním panelu klikněte Ikona Úlohna Pracovní postupy a klikněte Tlačítko Vytvořit úlohu nebo přejděte na existující úlohu a přidejte nový úkol.

  2. Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.

  3. Do pole Název úkolu zadejte název úkolu.

  4. V rozevírací nabídce Typ vyberte skript Pythonu.

  5. V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.

  6. V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.

    Do pole Cesta zadejte relativní cestu ke zdrojovému umístění, například etl/python/python_etl.py.

    Když zadáte relativní cestu, nezačínejte s / ní nebo ./. Pokud je například absolutní cesta kódu Pythonu, ke které chcete získat přístup /python/covid_eda_raw.py, zadejte python/covid_eda_raw.py do pole Cesta.

  7. Klikněte na Vytvořit.

Když zobrazíte historii spuštění úlohy, která spouští kód Pythonu uložený ve vzdáleném úložišti Git, obsahuje panel podrobností o spuštění úlohy podrobnosti o Gitu, včetně algoritmu SHA potvrzení přidruženého ke spuštění.

Použití dotazů SQL ze vzdáleného úložiště Git

Poznámka:

V souboru je podporován pouze jeden příkaz SQL. Více příkazů SQL oddělených středníky (;) nejsou povoleny.

Spouštění dotazů uložených v .sql souborech umístěných ve vzdáleném úložišti Git:

  1. Na bočním panelu klikněte Ikona Úlohna Pracovní postupy a klikněte Tlačítko Vytvořit úlohu nebo přejděte na existující úlohu a přidejte nový úkol.

  2. Pokud se jedná o novou úlohu, nahraďte název vaší úlohy... názvem vaší úlohy.

  3. Do pole Název úkolu zadejte název úkolu.

  4. V rozevírací nabídce Typ vyberte SQL.

  5. V rozevírací nabídce úkolu SQL vyberte Soubor.

  6. V rozevírací nabídce Zdroj vyberte poskytovatele Gitu a klikněte na Upravit nebo Přidat odkaz na Git. Zobrazí se dialogové okno s informacemi o Gitu.

  7. V dialogovém okně Informace o Gitu zadejte podrobnosti o úložišti, včetně adresy URL úložiště, poskytovatele Gitu a odkazu Na Git. Tento odkaz na Git může být větev, značka nebo potvrzení.

    Do pole Cesta zadejte relativní cestu ke zdrojovému umístění, například queries/sql/myquery.sql.

    Když zadáte relativní cestu, nezačínejte s / ní nebo ./. Pokud je například absolutní cesta pro dotaz SQL, ke který chcete získat přístup /sql/myqeury.sql, zadejte sql/myquery.sql do pole Cesta.

  8. Vyberte SQL Warehouse. Musíte vybrat bezserverový SQL Warehouse nebo pro SQL Warehouse.

  9. Klikněte na Vytvořit.

Přidání dalších úloh ze vzdáleného úložiště Git

Další úlohy v úloze s více úkoly můžou odkazovat na stejné potvrzení ve vzdáleném úložišti jedním z následujících způsobů:

  • sha$branch/head kdy git_branch je nastavená
  • sha$tag kdy git_tag je nastavená
  • hodnota git_commit

Úlohy poznámkového bloku a Pythonu můžete kombinovat v úloze Azure Databricks, ale musí používat stejný odkaz na Git.

Použití složky Git Databricks

Pokud dáváte přednost použití uživatelského rozhraní Azure Databricks ke správě verzí zdrojového kódu, naklonujte úložiště do složky Databricks Git. Další informace najdete v tématu 2. možnost: Nastavení produkční složky Git a automatizace Gitu.

Pokud chcete do úlohy úlohy přidat poznámkový blok nebo kód Pythonu ze složky Git, vyberte v rozevírací nabídce Zdroj pracovní prostor a zadejte cestu k poznámkovému bloku nebo kódu Pythonu v cestě.

Přístup k poznámkovému bloku z integrovaného vývojového prostředí (IDE)

Pokud potřebujete získat přístup k poznámkovému bloku z integrovaného vývojového prostředí, ujistěte se, že máte komentář # Databricks notebook source v horní části souboru zdrojového kódu poznámkového bloku. Pro rozlišení mezi běžným souborem Pythonu a poznámkovým blokem Jazyka Python v Azure Databricks exportovaným ve formátu zdrojového kódu přidá Databricks řádek # Databricks notebook source v horní části souboru zdrojového kódu poznámkového bloku. Když poznámkový blok naimportujete, Azure Databricks ho rozpozná a naimportuje jako poznámkový blok, ne jako modul Pythonu.

Řešení problému

Poznámka:

Úlohy založené na Gitu nepodporují přístup k zápisu k souborům pracovního prostoru. Pokud chcete zapisovat data do dočasného umístění úložiště, použijte úložiště ovladačů. K zápisu trvalých dat z úlohy Git použijte svazek UC nebo DBFS.

Chybová zpráva:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Možné příčiny:

V poznámkovém bloku chybí komentář # Databricks notebook source v horní části souboru zdrojového kódu poznámkového bloku nebo v komentáři je velká písmena, notebook když musí začínat malými písmeny n.