Vývoj deklarativních kanálů Sparku Lakeflow s využitím sad prostředků Databricks

Sady prostředků Databricks, označované také jako sady prostředků, umožňují programově ověřovat, nasazovat a spouštět prostředky Azure Databricks, jako jsou deklarativní kanály Sparku Lakeflow. Podívejte se na Co jsou balíčky prostředků Databricks?

Tato stránka popisuje, jak vytvořit sadu pro programovou správu kanálu. Viz deklarativní kanály Sparku Lakeflow. Sada se vytvoří pomocí příkazu Rozhraní příkazového řádku pipelines initDatabricks, který definuje kanál ETL a úlohu pro její spuštění. Pak ověříte, nasadíte a spustíte nasazený kanál v pracovním prostoru Azure Databricks na bezserverových výpočetních prostředcích.

Návod

Pokud máte existující kanály vytvořené pomocí uživatelského rozhraní Azure Databricks nebo rozhraní API, které chcete přesunout do sad, musíte je definovat v konfiguračních souborech sady. Databricks doporučuje nejprve vytvořit sadu pomocí následujícího postupu a pak do této sady přidat konfiguraci a další zdroje. Viz Načtení existující definice kanálu pomocí uživatelského rozhraní.

Požadavky

Databricks CLI verze 0.283.0 nebo novější Pokud chcete zkontrolovat nainstalovanou verzi rozhraní příkazového řádku Databricks, spusťte příkaz databricks -v. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
Uv je nutné ke spouštění testů a k instalaci závislostí pro tento projekt z integrovaného vývojového prostředí (IDE).
Vzdálený pracovní prostor musí mít povolené soubory pracovního prostoru. Podívejte se na co jsou soubory pracovního prostoru.
Existující katalog tabulek v datovém toku. Viz Vytváření katalogů.

(Volitelné) Instalovat Python modul pro podporu při vývoji místního pipeline

Databricks poskytuje modul Pythonu, který pomáhá místnímu vývoji kódu deklarativních kanálů Sparku Lakeflow tím, že při psaní kódu v integrovaném vývojovém prostředí (IDE) poskytuje kontrolu syntaxe, automatické dokončování a kontrolu datových typů.

Modul Python pro místní vývoj je k dispozici na platformě PyPi. Pokud chcete nainstalovat modul, podívejte se na Python stub pro DLT.

Krok 1: Nastavení ověřování

Nejprve nastavte ověřování mezi Rozhraním příkazového řádku Databricks na vývojovém počítači a pracovním prostorem Azure Databricks. Na této stránce se předpokládá, že chcete použít ověřování OAuth typu U2M (user-to-machine) a konfigurační profil Azure Databricks s názvem DEFAULT pro ověřování.

Poznámka:

Ověřování U2M je vhodné pro vyzkoušení těchto kroků v reálném čase. Pro plně automatizované pracovní postupy doporučuje Databricks místo toho použít OAuth ověřování mezi stroji (machine-to-machine, M2M). Přečtěte si pokyny k nastavení ověřování M2M v tématu Autorizace přístupu instančního objektu k Azure Databricks pomocí OAuth.

Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.

V následujícím příkazu nahraďte <workspace-url> adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.
```
databricks auth login --host <workspace-url>
```
Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy Enter potvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.

Seznam existujících profilů získáte tak, že v samostatném terminálu nebo příkazovém řádku použijete rozhraní příkazového řádku Databricks ke spuštění příkazu databricks auth profiles. Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkaz databricks auth env --profile <profile-name>.
Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.
Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
Pokud máte více profilů se stejnou --host hodnotou, možná budete muset zadat možnost --host a -p společně, aby rozhraní příkazového řádku Databricks mohlo najít správné informace o tokenu OAuth.

Krok 2: Vytvoření sady

Inicializujte balíček s potrubím:

Pomocí terminálu nebo příkazového řádku přepněte do adresáře na místním vývojovém počítači, který bude obsahovat vygenerovanou sadu šablony.
Ke spuštění pipelines init příkazu použijte rozhraní příkazového řádku Databricks:
```
databricks pipelines init
```
Pro Unique name for this project, ponechte výchozí hodnotu my_pipeline_project, nebo zadejte jinou hodnotu a stiskněte Enter. Určuje název kořenového adresáře pro tuto sadu. Tento kořenový adresář se vytvoří v aktuálním pracovním adresáři.
Zadejte Initial catalognázev existujícího katalogu Unity.
Vyberte Use a personal schema for each user working on this project?yes.
Vyberte Initial language for this projectpython.

Krok 3: Prozkoumání sady

Pokud chcete zobrazit soubory, které šablona vygenerovala, přepněte do kořenového adresáře nově vytvořené sady. Ve výchozím nastavení se vytvoří následující struktura:

my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│   ├── my_pipeline_project_etl.pipeline.yml
│   └── sample_job.job.yml
└── src
    └── my_pipeline_project_etl
        ├── explorations
        │   └── sample_exploration.ipynb
        ├── README.md
        └── transformations
            ├── sample_trips_my_pipeline_project.py
            └── sample_zones_my_pipeline_project.py

Mezi soubory, které mají zvláštní zájem, patří:

databricks.yml: Tento soubor určuje programový název sady, obsahuje odkazy na soubory sady, definuje katalog a proměnné schématu a určuje nastavení pro cílové pracovní prostory.
resources/sample_job.job.yml a resources/<project-name>_etl_pipeline.yml: Tyto soubory definují úlohu, která obsahuje úlohu aktualizace kanálu, a nastavení kanálu. Informace o nastavení kanálu najdete v tématu kanál.
src/: Tato složka obsahuje zdrojové soubory, analýzy a transformace ukázkového zpracovatelského řetězce.
README.md: Tento soubor obsahuje další informace o tom, jak začít a používat tuto šablonu sady.

Krok 4: Ověření konfigurace sady

Teď zkontrolujte, jestli je konfigurace sady platná.

Z kořenového adresáře spusťte bundle validate příkaz pomocí rozhraní příkazového řádku Databricks:
```
databricks bundle validate
```
Pokud se vrátí souhrn konfigurace sady, ověření proběhlo úspěšně. Pokud se vrátí nějaké chyby, opravte chyby a opakujte tento krok.

Krok 5: Nasazení pipeline do vzdáleného pracovního prostoru

V dalším kroku nasaďte balíček do vzdáleného pracovního prostoru Azure Databricks a zkontrolujte potrubí ve svém pracovním prostoru.

V kořenovém adresáři balíčku použijte příkaz Databricks CLI deploy:
```
databricks bundle deploy --target dev
```
Nebo:
```
databricks pipelines deploy --target dev
```
Poznámka:

Výchozí šablona obsahuje úlohu, která spouští pipeline každý den, ale pro cílový režim nasazení dev je pozastavena. Viz režimy nasazení balíčku Databricks Asset.
Ověřte, že se sada nasadila:
1. Na bočním panelu pracovního prostoru Azure Databricks klikněte na Pracovní prostor.
2. Klikněte do složky Users ><your-username>>.bundle a vyhledejte projekt sady.
Zkontrolujte, jestli byl váš kanál vytvořen:
1. Na bočním panelu pracovního prostoru Azure Databricks klikněte na Úlohy a kanály.
2. Můžete volitelně vybrat filtry Potrubí a Mé vlastnictví.
3. Klikněte na [dev <your-username>] <project-name>_etl.

Pokud po tomto kroku provedete nějaké změny v sadě, měli byste zopakovat kroky 4 až 5, abyste zkontrolovali, jestli je konfigurace sady stále platná, a pak projekt znovu nasaďte.

Krok 6: Spuštění nasazeného kanálu

Teď z příkazového řádku aktivujte spuštění kanálu ve vašem pracovním prostoru.

Z kořenového adresáře spusťte příkaz pomocí rozhraní příkazového řádku bundle run Databricks a nahraďte <project-name> názvem projektu:
```
databricks pipelines run --target dev <project-name>_etl
```
Zkopírujte hodnotu Update URL, která se zobrazí v terminálu, a vložte ji do vašeho webového prohlížeče, aby se otevřel pracovní prostor Azure Databricks.
Po úspěšném dokončení běhu potrubí v pracovním prostoru Azure Databricks klikněte na materializovaná zobrazení a podívejte se na podrobnosti jednotlivých zobrazení.

Pokud po tomto kroku provedete nějaké změny sady, měli byste zopakovat kroky 4 až 6, abyste zkontrolovali, jestli je konfigurace sady stále platná, znovu nasaďte projekt a spusťte znovu nasazený projekt.

Krok 7: Spuštění testů

Nakonec použijte pytest k lokálnímu spuštění testů:

uv run pytest

Krok 8: Vyčištění

V tomto kroku odstraníte nasazený balíček a potrubí z pracovního prostoru.

Z kořenového adresáře spusťte bundle destroy příkaz pomocí rozhraní příkazového řádku Databricks:
```
databricks pipelines destroy --target dev
```
Po zobrazení výzvy k trvalému zničení zdrojů, vývojového kanálu a tabulek a zobrazení spravovaných vývojovým kanálem zadejte y a stiskněte Enter.
Pokud chcete také odstranit sadu z vývojového počítače, můžete teď odstranit místní adresář projektu.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-01-17