Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Sady prostředků Databricks, označované také jako sady prostředků, umožňují programově ověřovat, nasazovat a spouštět prostředky Azure Databricks, jako jsou deklarativní kanály Sparku Lakeflow. Podívejte se na Co jsou balíčky prostředků Databricks?
Tato stránka popisuje, jak vytvořit sadu pro programovou správu kanálu. Viz deklarativní kanály Sparku Lakeflow. Sada se vytvoří pomocí příkazu Rozhraní příkazového řádku pipelines initDatabricks, který definuje kanál ETL a úlohu pro její spuštění. Pak ověříte, nasadíte a spustíte nasazený kanál v pracovním prostoru Azure Databricks na bezserverových výpočetních prostředcích.
Návod
Pokud máte existující kanály vytvořené pomocí uživatelského rozhraní Azure Databricks nebo rozhraní API, které chcete přesunout do sad, musíte je definovat v konfiguračních souborech sady. Databricks doporučuje nejprve vytvořit sadu pomocí následujícího postupu a pak do této sady přidat konfiguraci a další zdroje. Viz Načtení existující definice kanálu pomocí uživatelského rozhraní.
Požadavky
- Databricks CLI verze 0.283.0 nebo novější Pokud chcete zkontrolovat nainstalovanou verzi rozhraní příkazového řádku Databricks, spusťte příkaz
databricks -v. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks. - Uv je nutné ke spouštění testů a k instalaci závislostí pro tento projekt z integrovaného vývojového prostředí (IDE).
- Vzdálený pracovní prostor musí mít povolené soubory pracovního prostoru. Podívejte se na co jsou soubory pracovního prostoru.
- Existující katalog tabulek v datovém toku. Viz Vytváření katalogů.
(Volitelné) Instalovat Python modul pro podporu při vývoji místního pipeline
Databricks poskytuje modul Pythonu, který pomáhá místnímu vývoji kódu deklarativních kanálů Sparku Lakeflow tím, že při psaní kódu v integrovaném vývojovém prostředí (IDE) poskytuje kontrolu syntaxe, automatické dokončování a kontrolu datových typů.
Modul Python pro místní vývoj je k dispozici na platformě PyPi. Pokud chcete nainstalovat modul, podívejte se na Python stub pro DLT.
Krok 1: Nastavení ověřování
Nejprve nastavte ověřování mezi Rozhraním příkazového řádku Databricks na vývojovém počítači a pracovním prostorem Azure Databricks. Na této stránce se předpokládá, že chcete použít ověřování OAuth typu U2M (user-to-machine) a konfigurační profil Azure Databricks s názvem DEFAULT pro ověřování.
Poznámka:
Ověřování U2M je vhodné pro vyzkoušení těchto kroků v reálném čase. Pro plně automatizované pracovní postupy doporučuje Databricks místo toho použít OAuth ověřování mezi stroji (machine-to-machine, M2M). Přečtěte si pokyny k nastavení ověřování M2M v tématu Autorizace přístupu instančního objektu k Azure Databricks pomocí OAuth.
Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.
V následujícím příkazu nahraďte
<workspace-url>adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, napříkladhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy
Enterpotvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.Seznam existujících profilů získáte tak, že v samostatném terminálu nebo příkazovém řádku použijete rozhraní příkazového řádku Databricks ke spuštění příkazu
databricks auth profiles. Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkazdatabricks auth env --profile <profile-name>.Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.
Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Pokud máte více profilů se stejnou
--hosthodnotou, možná budete muset zadat možnost--hosta-pspolečně, aby rozhraní příkazového řádku Databricks mohlo najít správné informace o tokenu OAuth.
Krok 2: Vytvoření sady
Inicializujte balíček s potrubím:
Pomocí terminálu nebo příkazového řádku přepněte do adresáře na místním vývojovém počítači, který bude obsahovat vygenerovanou sadu šablony.
Ke spuštění
pipelines initpříkazu použijte rozhraní příkazového řádku Databricks:databricks pipelines initPro
Unique name for this project, ponechte výchozí hodnotumy_pipeline_project, nebo zadejte jinou hodnotu a stiskněteEnter. Určuje název kořenového adresáře pro tuto sadu. Tento kořenový adresář se vytvoří v aktuálním pracovním adresáři.Zadejte
Initial catalognázev existujícího katalogu Unity.Vyberte
Use a personal schema for each user working on this project?yes.Vyberte
Initial language for this projectpython.
Krok 3: Prozkoumání sady
Pokud chcete zobrazit soubory, které šablona vygenerovala, přepněte do kořenového adresáře nově vytvořené sady. Ve výchozím nastavení se vytvoří následující struktura:
my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│ ├── my_pipeline_project_etl.pipeline.yml
│ └── sample_job.job.yml
└── src
└── my_pipeline_project_etl
├── explorations
│ └── sample_exploration.ipynb
├── README.md
└── transformations
├── sample_trips_my_pipeline_project.py
└── sample_zones_my_pipeline_project.py
Mezi soubory, které mají zvláštní zájem, patří:
-
databricks.yml: Tento soubor určuje programový název sady, obsahuje odkazy na soubory sady, definuje katalog a proměnné schématu a určuje nastavení pro cílové pracovní prostory. -
resources/sample_job.job.ymlaresources/<project-name>_etl_pipeline.yml: Tyto soubory definují úlohu, která obsahuje úlohu aktualizace kanálu, a nastavení kanálu. Informace o nastavení kanálu najdete v tématu kanál. -
src/: Tato složka obsahuje zdrojové soubory, analýzy a transformace ukázkového zpracovatelského řetězce. -
README.md: Tento soubor obsahuje další informace o tom, jak začít a používat tuto šablonu sady.
Krok 4: Ověření konfigurace sady
Teď zkontrolujte, jestli je konfigurace sady platná.
Z kořenového adresáře spusťte
bundle validatepříkaz pomocí rozhraní příkazového řádku Databricks:databricks bundle validatePokud se vrátí souhrn konfigurace sady, ověření proběhlo úspěšně. Pokud se vrátí nějaké chyby, opravte chyby a opakujte tento krok.
Krok 5: Nasazení pipeline do vzdáleného pracovního prostoru
V dalším kroku nasaďte balíček do vzdáleného pracovního prostoru Azure Databricks a zkontrolujte potrubí ve svém pracovním prostoru.
V kořenovém adresáři balíčku použijte příkaz Databricks CLI
deploy:databricks bundle deploy --target devNebo:
databricks pipelines deploy --target devPoznámka:
Výchozí šablona obsahuje úlohu, která spouští pipeline každý den, ale pro cílový režim nasazení
devje pozastavena. Viz režimy nasazení balíčku Databricks Asset.Ověřte, že se sada nasadila:
- Na bočním panelu pracovního prostoru Azure Databricks klikněte na Pracovní prostor.
- Klikněte do složky Users >
<your-username>>.bundlea vyhledejte projekt sady.
Zkontrolujte, jestli byl váš kanál vytvořen:
- Na bočním panelu pracovního prostoru Azure Databricks klikněte na Úlohy a kanály.
- Můžete volitelně vybrat filtry Potrubí a Mé vlastnictví.
- Klikněte na [dev
<your-username>]<project-name>_etl.
Pokud po tomto kroku provedete nějaké změny v sadě, měli byste zopakovat kroky 4 až 5, abyste zkontrolovali, jestli je konfigurace sady stále platná, a pak projekt znovu nasaďte.
Krok 6: Spuštění nasazeného kanálu
Teď z příkazového řádku aktivujte spuštění kanálu ve vašem pracovním prostoru.
Z kořenového adresáře spusťte příkaz pomocí rozhraní příkazového řádku
bundle runDatabricks a nahraďte<project-name>názvem projektu:databricks pipelines run --target dev <project-name>_etlZkopírujte hodnotu
Update URL, která se zobrazí v terminálu, a vložte ji do vašeho webového prohlížeče, aby se otevřel pracovní prostor Azure Databricks.Po úspěšném dokončení běhu potrubí v pracovním prostoru Azure Databricks klikněte na materializovaná zobrazení a podívejte se na podrobnosti jednotlivých zobrazení.
Pokud po tomto kroku provedete nějaké změny sady, měli byste zopakovat kroky 4 až 6, abyste zkontrolovali, jestli je konfigurace sady stále platná, znovu nasaďte projekt a spusťte znovu nasazený projekt.
Krok 7: Spuštění testů
Nakonec použijte pytest k lokálnímu spuštění testů:
uv run pytest
Krok 8: Vyčištění
V tomto kroku odstraníte nasazený balíček a potrubí z pracovního prostoru.
Z kořenového adresáře spusťte
bundle destroypříkaz pomocí rozhraní příkazového řádku Databricks:databricks pipelines destroy --target devPo zobrazení výzvy k trvalému zničení zdrojů, vývojového kanálu a tabulek a zobrazení spravovaných vývojovým kanálem zadejte
ya stiskněteEnter.Pokud chcete také odstranit sadu z vývojového počítače, můžete teď odstranit místní adresář projektu.