Sdílet prostřednictvím


Vývoj sad prostředků Databricks

Tento článek popisuje vývoj a životní cyklus sady prostředků Databricks. Obecné informace o sadách prostředků Databricks najdete v tématu Co jsou sady prostředků Databricks?.

Životní cyklus sady

Abyste pochopili, jak efektivně používat sady, musíte porozumět základnímu životnímu cyklu sady:

  1. Kostra sady se vytvoří na základě projektu.
  2. Projekt sady se vyvíjí místně. Sada obsahuje konfigurační soubory, které definují nastavení infrastruktury a pracovního prostoru, jako jsou cíle nasazení, nastavení pro prostředky Databricks, jako jsou úlohy a kanály, a také zdrojové soubory a další artefakty.
  3. Projekt sady je ověřen. Ověření ověří nastavení a definice prostředků v konfiguraci sady s odpovídajícími schématy objektů, aby se zajistilo, že je sada nasaditelná do Databricks.
  4. Sada se nasadí do cílového pracovního prostoru. Nejčastěji se sada nasazuje nejprve do osobního vývojového pracovního prostoru uživatele pro účely testování. Po dokončení testování sady je možné sadu nasadit do přípravného a následně produkčního cíle.
  5. Prostředky pracovního postupu definované v nasazené sadě je možné spustit. Můžete například spustit úlohu.
  6. Pokud se sada už nepoužívá, může být trvale zničena.

Pomocí příkazů sady rozhraní příkazového řádku Databricks vytvoříte, ověříte, nasadíte, spustíte a zničíte sady, jak je popsáno v následujících částech.

Krok 1: Vytvoření sady

Existují tři způsoby, jak začít vytvářet sadu:

  1. Použijte výchozí šablonu sady.
  2. Použijte vlastní šablonu sady.
  3. Vytvořte sadu ručně.

Použití výchozí šablony sady

Pokud chcete použít výchozí šablonu sady prostředků Azure Databricks k vytvoření počáteční sady, kterou pak můžete dále přizpůsobit, spusťte příkaz pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo novější bundle init , který vám umožní vybrat si ze seznamu dostupných šablon. Viz Vytvoření sady z šablony projektu.

databricks bundle init

Zdroj výchozích šablon sad můžete zobrazit ve veřejných úložištích Databricks/cli a databricks/mlops-stacks Na GitHubu.

Přeskočte k kroku 2: Naplňte konfigurační soubory sady.

Použití vlastní šablony sady

Pokud chcete použít jinou šablonu sady než výchozí šablonu sady Azure Databricks, musíte znát místní cestu nebo adresu URL umístění vzdálené šablony sady. Ke spuštění bundle init příkazu použijte Rozhraní příkazového řádku Databricks verze 0.218.0 nebo novější:

databricks bundle init <project-template-local-path-or-url>

Další informace o tomto příkazu najdete v tématu Šablony projektů Sady prostředků Databricks. Informace o konkrétní šabloně sady najdete v dokumentaci poskytovatele šablony sady.

Přeskočte k kroku 2: Naplňte konfigurační soubory sady.

Ruční vytvoření sady

Pokud chcete sadu vytvořit ručně místo pomocí šablony sady, vytvořte adresář projektu na místním počítači nebo prázdné úložiště s poskytovatelem Gitu třetí strany.

V adresáři nebo úložišti vytvořte jako vstup jeden nebo více konfiguračních souborů sady. Tyto soubory jsou vyjádřeny ve formátu YAML. Musí existovat minimálně jeden (a pouze jeden) konfigurační soubor sady s názvem databricks.yml. Při mapování databricks.yml souboru se musí odkazovat na include další konfigurační soubory sady.

Pokud chcete snadněji a rychleji vytvářet soubory YAML, které odpovídají syntaxi konfigurace sady prostředků Databricks, můžete použít nástroj, jako je Visual Studio Code, PyCharm Professional nebo IntelliJ IDEA Ultimate , který poskytuje podporu pro soubory YAML a soubory schématu JSON následujícím způsobem:

Visual Studio Code

  1. Přidejte podporu jazykového serveru YAML do editoru Visual Studio Code, například instalací rozšíření YAML z webu Visual Studio Code Marketplace.

  2. Vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší, abyste mohli spustit bundle schema příkaz a přesměrovat výstup do souboru JSON. Například vygenerujte soubor pojmenovaný bundle_config_schema.json v aktuálním adresáři následujícím způsobem:

    databricks bundle schema > bundle_config_schema.json
    
  3. Pomocí editoru Visual Studio Code vytvořte nebo otevřete konfigurační soubor sady v aktuálním adresáři. Tento soubor musí mít název databricks.yml.

  4. Na začátek konfiguračního souboru sady přidejte následující komentář:

    # yaml-language-server: $schema=bundle_config_schema.json
    

    Poznámka:

    Pokud je soubor schématu JSON konfigurace sady prostředků Databricks v předchozím komentáři v jiné cestě, nahraďte bundle_config_schema.json úplnou cestou k souboru schématu.

  5. Použijte funkce jazykového serveru YAML, které jste přidali dříve. Další informace najdete v dokumentaci k jazykovému serveru YAML.

PyCharm Professional

  1. Spuštěním bundle schema příkazu a přesměrováním výstupu do souboru JSON vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks cli verze 0.218.0 nebo vyšší. Například vygenerujte soubor pojmenovaný bundle_config_schema.json v aktuálním adresáři následujícím způsobem:

    databricks bundle schema > bundle_config_schema.json
    
  2. Nakonfigurujte PyCharm tak, aby rozpoznal konfigurační soubor schématu JSON sady, a pak dokončete mapování schématu JSON podle pokynů v části Konfigurace vlastního schématu JSON.

  3. Pomocí PyCharm vytvořte nebo otevřete konfigurační soubor sady. Tento soubor musí mít název databricks.yml. Při psaní PyCharm kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.

IntelliJ IDEA Ultimate

  1. Spuštěním bundle schema příkazu a přesměrováním výstupu do souboru JSON vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks cli verze 0.218.0 nebo vyšší. Například vygenerujte soubor pojmenovaný bundle_config_schema.json v aktuálním adresáři následujícím způsobem:

    databricks bundle schema > bundle_config_schema.json
    
  2. Nakonfigurujte IntelliJ IDEA tak, aby rozpoznal konfigurační soubor schématu JSON sady a pak dokončil mapování schématu JSON podle pokynů v části Konfigurace vlastního schématu JSON.

  3. K vytvoření nebo otevření konfiguračního souboru sady použijte IntelliJ IDEA. Tento soubor musí mít název databricks.yml. Při psaní IntelliJ IDEA kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.

Krok 2: Naplnění konfiguračních souborů sady

Konfigurační soubory sady prostředků definují pracovní postupy Azure Databricks zadáním nastavení, jako jsou podrobnosti pracovního prostoru, názvy artefaktů, umístění souborů, podrobnosti úlohy a podrobnosti kanálu. Konfigurace sady prostředků obvykle obsahuje také cíle vývojového, přípravného a produkčního nasazení. Podrobné informace o konfiguračních souborech sady prostředků najdete v tématu Konfigurace sady prostředků Databricks.

Pomocí příkazu můžete bundle generate automaticky vygenerovat konfiguraci sady prostředků pro existující prostředek v pracovním prostoru a pak pomocí bundle deployment bind propojení konfigurace sady s prostředkem v pracovním prostoru zajistit jejich synchronizaci. Viz Vygenerování konfiguračního souboru sady a prostředky vazby sady.

Krok 3: Ověření konfiguračních souborů sady

Před nasazením artefaktů nebo spuštěním úlohy nebo kanálu byste měli ověřit, jestli jsou definice v konfiguračních souborech sady platné. Uděláte to tak, že příkaz spustíte bundle validate z kořenového adresáře projektu sady. Viz Ověření sady.

databricks bundle validate

Pokud je ověření úspěšné, vrátí se souhrn identity sady a potvrzovací zpráva. K výstupu schématu databricks bundle schema použijte příkaz. Viz Zobrazení schématu konfigurace sady.

Krok 4: Nasazení sady

Před nasazením sady se ujistěte, že má vzdálený pracovní prostor povolené soubory pracovního prostoru. Podívejte se, co jsou soubory pracovního prostoru?

Pokud chcete nasadit sadu do vzdáleného pracovního prostoru, spusťte bundle deploy příkaz z kořenového adresáře sady, jak je popsáno v části Nasazení sady. Rozhraní příkazového řádku Databricks se nasadí do cílového pracovního prostoru deklarovaného v rámci konfiguračních souborů sady. Podívejte se na cíle.

databricks bundle deploy

Jedinečná identita sady je definována jeho názvem, cílem a identitou nasazovacího nástroje. Pokud jsou tyto atributy v různých sadách stejné, nasazení těchto sad bude vzájemně kolidovat. Další podrobnosti najdete v tématu Nasazení sady .

Tip

Příkazy mimo kořen sady můžete spustit databricks bundle nastavením BUNDLE_ROOT proměnné prostředí. Pokud tato proměnná prostředí není nastavená, databricks bundle příkazy se pokusí najít kořen sady hledáním v aktuálním pracovním adresáři.

Krok 5: Spuštění sady

Pokud chcete spustit konkrétní úlohu nebo kanál, spusťte bundle run příkaz z kořenového adresáře sady a zadejte úlohu nebo klíč kanálu deklarovaný v konfiguračních souborech sady, jak je popsáno v části Spuštění úlohy nebo kanálu. Klíč prostředku je prvek nejvyšší úrovně bloku YAML prostředku. Pokud nezadáte úlohu nebo klíč kanálu, zobrazí se výzva k výběru prostředku, který se má spustit ze seznamu dostupných prostředků. Pokud není zadána -t možnost, použije se výchozí cíl deklarovaný v konfiguračních souborech sady. Pokud chcete například spustit úlohu s klíčem hello_job v kontextu výchozího cíle:

databricks bundle run hello_job

Spuštění úlohy s klíčem hello_job v kontextu cíle deklarovaného názvem dev:

databricks bundle run -t dev hello_job

Krok 6: Zničení sady

Upozorňující

Zničení sady trvale odstraní dříve nasazené úlohy, kanály a artefakty sady. Tuto akci nejde vrátit zpátky.

Pokud jste dokončili sadu a chcete odstranit úlohy, kanály a artefakty, které byly dříve nasazené, spusťte bundle destroy příkaz z kořenového adresáře sady. Tento příkaz odstraní všechny dříve nasazené úlohy, kanály a artefakty definované v konfiguračních souborech sady. Viz Zničení svazku.

databricks bundle destroy

Ve výchozím nastavení se zobrazí výzva k potvrzení trvalého odstranění dříve nasazených úloh, kanálů a artefaktů. Pokud chcete tyto výzvy přeskočit a provést automatické trvalé odstranění, přidejte --auto-approve do bundle destroy příkazu možnost.