Vývoj sad prostředků Databricks
Tento článek popisuje vývoj a životní cyklus sady prostředků Databricks. Obecné informace o sadách prostředků Databricks najdete v tématu Co jsou sady prostředků Databricks?.
Životní cyklus sady
Abyste pochopili, jak efektivně používat sady, musíte porozumět základnímu životnímu cyklu sady:
- Kostra sady se vytvoří na základě projektu.
- Projekt sady se vyvíjí místně. Sada obsahuje konfigurační soubory, které definují nastavení infrastruktury a pracovního prostoru, jako jsou cíle nasazení, nastavení pro prostředky Databricks, jako jsou úlohy a kanály, a také zdrojové soubory a další artefakty.
- Projekt sady je ověřen. Ověření ověří nastavení a definice prostředků v konfiguraci sady s odpovídajícími schématy objektů, aby se zajistilo, že je sada nasaditelná do Databricks.
- Sada se nasadí do cílového pracovního prostoru. Nejčastěji se sada nasazuje nejprve do osobního vývojového pracovního prostoru uživatele pro účely testování. Po dokončení testování sady je možné sadu nasadit do přípravného a následně produkčního cíle.
- Prostředky pracovního postupu definované v nasazené sadě je možné spustit. Můžete například spustit úlohu.
- Pokud se sada už nepoužívá, může být trvale zničena.
Pomocí příkazů sady rozhraní příkazového řádku Databricks vytvoříte, ověříte, nasadíte, spustíte a zničíte sady, jak je popsáno v následujících částech.
Krok 1: Vytvoření sady
Existují tři způsoby, jak začít vytvářet sadu:
- Použijte výchozí šablonu sady.
- Použijte vlastní šablonu sady.
- Vytvořte sadu ručně.
Použití výchozí šablony sady
Pokud chcete použít výchozí šablonu sady prostředků Azure Databricks k vytvoření počáteční sady, kterou pak můžete dále přizpůsobit, spusťte příkaz pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo novější bundle init
, který vám umožní vybrat si ze seznamu dostupných šablon. Viz Vytvoření sady z šablony projektu.
databricks bundle init
Zdroj výchozích šablon sad můžete zobrazit ve veřejných úložištích Databricks/cli a databricks/mlops-stacks Na GitHubu.
Přeskočte k kroku 2: Naplňte konfigurační soubory sady.
Použití vlastní šablony sady
Pokud chcete použít jinou šablonu sady než výchozí šablonu sady Azure Databricks, musíte znát místní cestu nebo adresu URL umístění vzdálené šablony sady. Ke spuštění bundle init
příkazu použijte Rozhraní příkazového řádku Databricks verze 0.218.0 nebo novější:
databricks bundle init <project-template-local-path-or-url>
Další informace o tomto příkazu najdete v tématu Šablony projektů Sady prostředků Databricks. Informace o konkrétní šabloně sady najdete v dokumentaci poskytovatele šablony sady.
Přeskočte k kroku 2: Naplňte konfigurační soubory sady.
Ruční vytvoření sady
Pokud chcete sadu vytvořit ručně místo pomocí šablony sady, vytvořte adresář projektu na místním počítači nebo prázdné úložiště s poskytovatelem Gitu třetí strany.
V adresáři nebo úložišti vytvořte jako vstup jeden nebo více konfiguračních souborů sady. Tyto soubory jsou vyjádřeny ve formátu YAML. Musí existovat minimálně jeden (a pouze jeden) konfigurační soubor sady s názvem databricks.yml
. Při mapování databricks.yml
souboru se musí odkazovat na include
další konfigurační soubory sady.
Pokud chcete snadněji a rychleji vytvářet soubory YAML, které odpovídají syntaxi konfigurace sady prostředků Databricks, můžete použít nástroj, jako je Visual Studio Code, PyCharm Professional nebo IntelliJ IDEA Ultimate , který poskytuje podporu pro soubory YAML a soubory schématu JSON následujícím způsobem:
Visual Studio Code
Přidejte podporu jazykového serveru YAML do editoru Visual Studio Code, například instalací rozšíření YAML z webu Visual Studio Code Marketplace.
Vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks pomocí Rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší, abyste mohli spustit
bundle schema
příkaz a přesměrovat výstup do souboru JSON. Například vygenerujte soubor pojmenovanýbundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Pomocí editoru Visual Studio Code vytvořte nebo otevřete konfigurační soubor sady v aktuálním adresáři. Tento soubor musí mít název
databricks.yml
.Na začátek konfiguračního souboru sady přidejte následující komentář:
# yaml-language-server: $schema=bundle_config_schema.json
Poznámka:
Pokud je soubor schématu JSON konfigurace sady prostředků Databricks v předchozím komentáři v jiné cestě, nahraďte
bundle_config_schema.json
úplnou cestou k souboru schématu.Použijte funkce jazykového serveru YAML, které jste přidali dříve. Další informace najdete v dokumentaci k jazykovému serveru YAML.
PyCharm Professional
Spuštěním
bundle schema
příkazu a přesměrováním výstupu do souboru JSON vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks cli verze 0.218.0 nebo vyšší. Například vygenerujte soubor pojmenovanýbundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Nakonfigurujte PyCharm tak, aby rozpoznal konfigurační soubor schématu JSON sady, a pak dokončete mapování schématu JSON podle pokynů v části Konfigurace vlastního schématu JSON.
Pomocí PyCharm vytvořte nebo otevřete konfigurační soubor sady. Tento soubor musí mít název
databricks.yml
. Při psaní PyCharm kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.
IntelliJ IDEA Ultimate
Spuštěním
bundle schema
příkazu a přesměrováním výstupu do souboru JSON vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks cli verze 0.218.0 nebo vyšší. Například vygenerujte soubor pojmenovanýbundle_config_schema.json
v aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.json
Nakonfigurujte IntelliJ IDEA tak, aby rozpoznal konfigurační soubor schématu JSON sady a pak dokončil mapování schématu JSON podle pokynů v části Konfigurace vlastního schématu JSON.
K vytvoření nebo otevření konfiguračního souboru sady použijte IntelliJ IDEA. Tento soubor musí mít název
databricks.yml
. Při psaní IntelliJ IDEA kontroluje syntaxi a formátování schématu JSON a poskytuje rady pro dokončování kódu.
Krok 2: Naplnění konfiguračních souborů sady
Konfigurační soubory sady prostředků definují pracovní postupy Azure Databricks zadáním nastavení, jako jsou podrobnosti pracovního prostoru, názvy artefaktů, umístění souborů, podrobnosti úlohy a podrobnosti kanálu. Konfigurace sady prostředků obvykle obsahuje také cíle vývojového, přípravného a produkčního nasazení. Podrobné informace o konfiguračních souborech sady prostředků najdete v tématu Konfigurace sady prostředků Databricks.
Pomocí příkazu můžete bundle generate
automaticky vygenerovat konfiguraci sady prostředků pro existující prostředek v pracovním prostoru a pak pomocí bundle deployment bind
propojení konfigurace sady s prostředkem v pracovním prostoru zajistit jejich synchronizaci. Viz Vygenerování konfiguračního souboru sady a prostředky vazby sady.
Krok 3: Ověření konfiguračních souborů sady
Před nasazením artefaktů nebo spuštěním úlohy nebo kanálu byste měli ověřit, jestli jsou definice v konfiguračních souborech sady platné. Uděláte to tak, že příkaz spustíte bundle validate
z kořenového adresáře projektu sady. Viz Ověření sady.
databricks bundle validate
Pokud je ověření úspěšné, vrátí se souhrn identity sady a potvrzovací zpráva. K výstupu schématu databricks bundle schema
použijte příkaz. Viz Zobrazení schématu konfigurace sady.
Krok 4: Nasazení sady
Před nasazením sady se ujistěte, že má vzdálený pracovní prostor povolené soubory pracovního prostoru. Podívejte se, co jsou soubory pracovního prostoru?
Pokud chcete nasadit sadu do vzdáleného pracovního prostoru, spusťte bundle deploy
příkaz z kořenového adresáře sady, jak je popsáno v části Nasazení sady. Rozhraní příkazového řádku Databricks se nasadí do cílového pracovního prostoru deklarovaného v rámci konfiguračních souborů sady. Podívejte se na cíle.
databricks bundle deploy
Jedinečná identita sady je definována jeho názvem, cílem a identitou nasazovacího nástroje. Pokud jsou tyto atributy v různých sadách stejné, nasazení těchto sad bude vzájemně kolidovat. Další podrobnosti najdete v tématu Nasazení sady .
Tip
Příkazy mimo kořen sady můžete spustit databricks bundle
nastavením BUNDLE_ROOT
proměnné prostředí. Pokud tato proměnná prostředí není nastavená, databricks bundle
příkazy se pokusí najít kořen sady hledáním v aktuálním pracovním adresáři.
Krok 5: Spuštění sady
Pokud chcete spustit konkrétní úlohu nebo kanál, spusťte bundle run
příkaz z kořenového adresáře sady a zadejte úlohu nebo klíč kanálu deklarovaný v konfiguračních souborech sady, jak je popsáno v části Spuštění úlohy nebo kanálu. Klíč prostředku je prvek nejvyšší úrovně bloku YAML prostředku. Pokud nezadáte úlohu nebo klíč kanálu, zobrazí se výzva k výběru prostředku, který se má spustit ze seznamu dostupných prostředků. Pokud není zadána -t
možnost, použije se výchozí cíl deklarovaný v konfiguračních souborech sady. Pokud chcete například spustit úlohu s klíčem hello_job
v kontextu výchozího cíle:
databricks bundle run hello_job
Spuštění úlohy s klíčem hello_job
v kontextu cíle deklarovaného názvem dev
:
databricks bundle run -t dev hello_job
Krok 6: Zničení sady
Upozorňující
Zničení sady trvale odstraní dříve nasazené úlohy, kanály a artefakty sady. Tuto akci nejde vrátit zpátky.
Pokud jste dokončili sadu a chcete odstranit úlohy, kanály a artefakty, které byly dříve nasazené, spusťte bundle destroy
příkaz z kořenového adresáře sady. Tento příkaz odstraní všechny dříve nasazené úlohy, kanály a artefakty definované v konfiguračních souborech sady. Viz Zničení svazku.
databricks bundle destroy
Ve výchozím nastavení se zobrazí výzva k potvrzení trvalého odstranění dříve nasazených úloh, kanálů a artefaktů. Pokud chcete tyto výzvy přeskočit a provést automatické trvalé odstranění, přidejte --auto-approve
do bundle destroy
příkazu možnost.