Co jsou sady prostředků Databricks?

Článek
06/14/2024

Sady prostředků Databricks jsou nástroj, který usnadňuje přijetí osvědčených postupů pro softwarové inženýrství, včetně správy zdrojového kódu, kontroly kódu, testování a průběžné integrace a průběžné integrace (CI/CD) pro vaše data a projekty AI. Balíčky umožňují popsat prostředky Databricks, jako jsou úlohy, kanály a poznámkové bloky jako zdrojové soubory. Tyto zdrojové soubory poskytují ucelenou definici projektu, včetně toho, jak by měla být strukturovaná, testovaná a nasazená, což usnadňuje spolupráci na projektech během aktivního vývoje.

Sady prostředků poskytují způsob, jak zahrnout metadata spolu se zdrojovými soubory projektu. Při nasazování projektu pomocí sad prostředků se tato metadata používají ke zřízení infrastruktury a dalších prostředků. Kolekce zdrojových souborů a metadat vašeho projektu se pak nasadí jako jedna sada do cílového prostředí. Sada obsahuje následující části:

Požadovaná cloudová infrastruktura a konfigurace pracovních prostorů
Zdrojové soubory, jako jsou poznámkové bloky a soubory Pythonu, které zahrnují obchodní logiku
Definice a nastavení pro prostředky Databricks, jako jsou úlohy Azure Databricks, kanály Delta Live Tables, koncové body obsluhy modelů, experimenty MLflow a registrované modely MLflow
Testy jednotek a integrační testy

Následující diagram poskytuje základní pohled na vývojový kanál a kanál CI/CD se sadami:

Přehled sad prostředků Databricks

Kdy mám používat sady prostředků Databricks?

Sady prostředků Databricks představují přístup infrastruktury jako kódu (IaC) ke správě projektů Databricks. Používejte je, když chcete spravovat složité projekty, ve kterých je nezbytné více přispěvatelů a automatizace, a průběžná integrace a nasazování (CI/CD) jsou požadavkem. Vzhledem k tomu, že sady jsou definované a spravované prostřednictvím šablon YAML a souborů, které vytváříte a udržujete společně se zdrojovým kódem, mapují se dobře na scénáře, kde je vhodný přístup IaC.

Mezi ideální scénáře pro balíčky patří:

Vývoj dat, analýz a projektů ML v týmovém prostředí Balíčky vám můžou pomoct efektivně uspořádat a spravovat různé zdrojové soubory. To zajišťuje bezproblémovou spolupráci a zjednodušené procesy.
Iterace problémů ml rychleji. Spravujte prostředky kanálu ML (například trénování a dávkové odvozování) pomocí projektů ML, které od začátku dodržují osvědčené postupy v produkčním prostředí.
Nastavte standardy organizace pro nové projekty vytvořením vlastních šablon sad, které zahrnují výchozí oprávnění, instanční objekty a konfigurace CI/CD.
Dodržováníprávníchch předpisů: V odvětvích, kde je dodržování právních předpisů významné, můžou sady prostředků pomoci udržovat historii verzí kódu a infrastruktury. To pomáhá v zásadách správného řízení a zajišťuje splnění nezbytných standardů dodržování předpisů.

Jak fungují sady prostředků Databricks?

Metadata sady jsou definována pomocí souborů YAML, které určují artefakty, prostředky a konfiguraci projektu Databricks. Tento soubor YAML můžete vytvořit ručně nebo ho vygenerovat pomocí šablony sady. Rozhraní příkazového řádku Databricks se pak dá použít k ověření, nasazení a spuštění sad pomocí těchto souborů YAML sady. Projekty sady můžete spouštět přímo z prostředí IDE, terminálů nebo přímo v Databricks. Tento článek používá rozhraní příkazového řádku Databricks.

Sady je možné vytvořit ručně nebo na základě šablony. Rozhraní příkazového řádku Databricks poskytuje výchozí šablony pro jednoduché případy použití, ale pro konkrétnější nebo složitější úlohy můžete vytvořit vlastní šablony sad, které implementují osvědčené postupy vašeho týmu a udržují společné konfigurace konzistentní.

Další podrobnosti o konfiguraci YAML používané k vyjádření sad prostředků Databricks najdete v tématu Konfigurace sady prostředků Databricks.

Konfigurace prostředí tak, aby používalo sady prostředků

Pomocí rozhraní příkazového řádku Databricks můžete snadno nasadit sady prostředků z příkazového řádku. Spuštěním následujícího příkazu můžete zkontrolovat, jestli je nainstalované rozhraní příkazového řádku Databricks a jestli používáte aktuální verzi:

databricks --version

Poznámka:

Vyžaduje se rozhraní příkazového řádku Databricks verze 0.218.0 nebo vyšší. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.

Po instalaci rozhraní příkazového řádku Databricks ověřte, že jsou vaše vzdálené pracovní prostory Databricks správně nakonfigurované. Sady prostředků vyžadují, aby byla povolená funkce souborů pracovního prostoru, protože tato funkce podporuje práci s jinými soubory než s poznámkovými bloky Databricks, jako .py jsou soubory a .yml soubory. Pokud používáte Databricks Runtime verze 11.2 (nebo novější), měla by být tato funkce ve výchozím nastavení povolená.

Ověřování

Azure Databricks poskytuje několik metod ověřování. Databricks doporučuje k ověření použít jednu z následujících metod:

Pro scénáře ověřování, jako jsou ruční pracovní postupy, ve kterých se pomocí webového prohlížeče přihlašujete k cílovému pracovnímu prostoru Azure Databricks (po zobrazení výzvy rozhraní příkazového řádku Databricks) použijte ověřování uživatelem AAuth (U2M). Tato metoda je ideální pro experimentování s úvodními kurzy pro sady prostředků Databricks nebo pro rychlý vývoj sad.
Pro scénáře bezobslužného ověřování, jako jsou plně automatizované pracovní postupy, ve kterých není možné použít webový prohlížeč k přihlášení k cílovému pracovnímu prostoru Azure Databricks, použijte ověřování OAuth typu machine-to-machine (M2M). Tato metoda vyžaduje použití instančních objektů Azure Databricks a je ideální pro použití sad prostředků Databricks se systémy CI/CD, jako je GitHub.

Pro ověřování U2M OAuth postupujte takto:

Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.

V následujícím příkazu nahraďte <workspace-url> adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.
```
databricks auth login --host <workspace-url>
```
Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy Enter potvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.

Pokud chcete získat seznam všech existujících profilů, v samostatném terminálu nebo příkazovém řádku spusťte příkaz databricks auth profilespomocí rozhraní příkazového řádku Databricks . Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkaz databricks auth env --profile <profile-name>.
Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.
Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
Pokud máte více profilů se stejnou --host hodnotou, možná budete muset zadat --host společně možnosti a -p pomoct rozhraní příkazového řádku Databricks najít správné odpovídající informace o tokenu OAuth.

Název tohoto konfiguračního profilu můžete použít jedním nebo několika z následujících způsobů, kdykoli ověříte, nasadíte, spustíte nebo zničíte balíčky:

S možností -p <profile-name>příkazového řádku , připojenými k příkazům databricks bundle validate, databricks bundle deploy, , databricks bundle runnebo databricks bundle destroy. Podívejte se na vývoj sad prostředků Databricks.
Jako hodnota mapování v mapování konfiguračního profile souboru sady nejvyšší úrovně workspace (ačkoli Databricks doporučuje použít host mapování nastavené na adresu URL pracovního prostoru Azure Databricks místo profile mapování, protože to zpřístupňuje konfigurační soubory sady). Podívejte se na profile pokrytí mapování v pracovním prostoru.
Pokud je DEFAULTnázev konfiguračního profilu , použije se ve výchozím nastavení, pokud není zadáno mapování -p <profile-name> příkazového řádku nebo profile mapování (nebohost).

Pro ověřování OAuth M2M postupujte takto:

Dokončete pokyny k nastavení ověřování OAuth M2M. Viz Použití instančního objektu k ověření pomocí Azure Databricks.
Nainstalujte rozhraní příkazového řádku Databricks na cílový výpočetní prostředek jedním z následujících způsobů:
- Pokud chcete rozhraní příkazového řádku Databricks nainstalovat do výpočetního prostředku v reálném čase ručně, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
- Pokud chcete použít GitHub Actions k automatické instalaci Rozhraní příkazového řádku Databricks na virtuálním počítači GitHubu, přečtěte si téma setup-cli na GitHubu.
- Pokud chcete k automatické instalaci Rozhraní příkazového řádku Databricks na virtuální počítač použít jiné systémy CI/CD, přečtěte si dokumentaci poskytovatele systému CI/CD a nainstalujte nebo aktualizujte rozhraní příkazového řádku Databricks.
Na výpočetním prostředku nastavte následující proměnné prostředí následujícím způsobem:
- DATABRICKS_HOST, nastavte na adresu URL Azure Databricks pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.
- DATABRICKS_CLIENT_ID, nastavte na hodnotu ID aplikace instančního objektu Azure Databricks.
- DATABRICKS_CLIENT_SECRET, nastavte na hodnotu tajného klíče OAuth instančního objektu Azure Databricks.
Pokud chcete nastavit tyto proměnné prostředí, přečtěte si dokumentaci k operačnímu systému cílového výpočetního prostředku nebo systému CI/CD.

Vývoj první sady prostředků Databricks

Nejrychlejší způsob, jak začít s vývojem sady, je použití šablony. Vytvořte svůj první projekt sady pomocí příkazu Rozhraní příkazového řádku bundle init Databricks bez jakýchkoli možností. To představuje výběr výchozích šablon balíčků poskytovaných službou Databricks a klade řadu otázek k inicializaci proměnných projektu.

databricks bundle init

Organizace můžou také vytvářet vlastní šablony sad, které definují vlastní standardy. Tyto standardy můžou zahrnovat výchozí oprávnění, instanční objekty a vlastní konfiguraci CI/CD. Viz šablony sady prostředků Databricks.

Po inicializaci projektu pomocí bundle validate příkazu před jeho nasazením do pracovních prostorů ověřte sadu.

databricks bundle validate

Sadu obvykle vytvoříte na místním vývojovém počítači s integrovaným vývojovým prostředím a rozhraním příkazového řádku Databricks verze 0.218.0 nebo novější. Tyto nástroje umožňují vytvářet, ověřovat, nasazovat a spouštět sadu. Podívejte se na vývoj sad prostředků Databricks.

Sadu můžete upravit v pracovním prostoru Azure Databricks po přidání sady do Gitu pomocí integrace složky Git Databricks. Sadu však nemůžete otestovat ani nasadit z pracovního prostoru. Místo toho můžete použít místní integrované vývojové prostředí (IDE) k testování a CI/CD pro nasazení.

Další kroky

Vytvořte sadu, která nasadí poznámkový blok do pracovního prostoru Azure Databricks a pak spustí tento nasazený poznámkový blok jako úlohu Azure Databricks. Viz Vývoj úlohy v Azure Databricks pomocí sad prostředků Databricks.
Vytvořte sadu, která nasadí poznámkový blok do pracovního prostoru Azure Databricks a potom spustí tento nasazený poznámkový blok jako kanál Delta Live Tables. Viz Vývoj kanálů Delta Live Tables s využitím sad prostředků Databricks.
Vytvořte sadu, která nasadí a spustí sadu MLOps Stack. Viz Sady prostředků Databricks pro zásobníky MLOps.
Přidejte sadu do pracovního postupu CI/CD (kontinuální integrace nebo průběžné nasazování) na GitHubu. Viz Spuštění pracovního postupu CI/CD se sadou prostředků Databricks a GitHub Actions.
Vytvořte sadu, která sestaví, nasadí a zavolá soubor kola Pythonu. Viz Vývoj souboru kola Pythonu pomocí sad prostředků Databricks.
Vytvořte vlastní šablonu, kterou můžete vy i ostatní použít k vytvoření sady. Viz šablony sady prostředků Databricks.

Běžné úkoly

Pomocí následujících článků můžete provádět běžné úlohy pro sady prostředků Databricks.

Článek	Tento článek použijte, pokud chcete...
Vývoj sad prostředků Databricks	Přečtěte si o vytváření, ověřování, nasazování a spouštění sady vytvořením `databricks.yml` souboru a spuštěním rozhraní příkazového řádku Databricks ke spuštění příkazů `databricks bundle validate`, `databricks bundle deploy`a `databricks bundle run`.
Konfigurace sady prostředků Databricks	Vytvořte soubor sady `databricks.yml` a další související konfigurační soubory sady, které odpovídají syntaxi YAML pro konfigurace balíčků.
Ověřování pro sady prostředků Databricks	Nastavte projekt sady pro ověřování Azure Databricks.
Vývoj úlohy v Azure Databricks pomocí sad prostředků Databricks	Vytvoření, nasazení a spuštění sady pro úlohu Azure Databricks
Vývoj kanálů Delta Live Tables s využitím sad prostředků Databricks	Vytvořte, nasaďte a spusťte sadu pro kanál Delta Live Tables.
Sady prostředků Databricks pro zásobníky MLOps	Vytvořte, nasaďte a spusťte sadu pro sadu MLOps Stack.
Závislosti knihovny sady prostředků Databricks	Nainstalujte knihovny, které sada potřebuje ke spuštění na všech souvisejících clusterech Azure Databricks.
Režimy nasazení sady prostředků Databricks	Použijte režimy nasazení sady prostředků, jako `development` je automatické `production` povolení nebo zakázání běžných chování nasazení, jako je pozastavení nebo zrušení pozastavení souvisejících plánů a triggerů.
Šablony sady prostředků Databricks	Pomocí šablony můžete urychlit, usnadnit a zjednodušit vytváření konkrétních typů balíčků a s konzistentnějšími a opakovatelnými výsledky.
Nastavení oprávnění pro prostředky v balíčcích prostředků Databricks	U uživatelů, skupin a instančních objektů pro konkrétní prostředky sady použijte podrobné úrovně oprávnění přístupu.
Dynamické definování nastavení artefaktů v balíčcích prostředků Databricks	Zkombinujte nebo přepište konkrétní nastavení artefaktů v sadě.
Spuštění pracovního postupu CI/CD s využitím sady prostředků Databricks a GitHub Actions	Nasaďte nebo spusťte sadu v reakci na konkrétní událost pracovního postupu GitHubu, jako je žádost o přijetí změn nebo sloučení.
Přepsání nastavení clusteru v balíčcích prostředků Databricks	Zkombinujte nebo přepište konkrétní nastavení pro clustery v sadě.
Přidání úkolů do úloh v balíčcích prostředků Databricks	Přidejte úkol do úlohy v sadě.
Přepsání nastavení úloh v balíčcích prostředků Databricks	Zkombinujte nebo přepište konkrétní nastavení úloh v sadě.
Vývoj souboru kola Pythonu pomocí sad prostředků Databricks	Sestavte, nasaďte a volejte soubory kol Pythonu v sadě.

Sdílet prostřednictvím