Sdílet prostřednictvím


Co jsou sady prostředků Databricks?

Sady prostředků Databricks (DAB) jsou nástroj, který usnadňuje přijetí osvědčených postupů pro softwarové inženýrství, včetně správy zdrojového kódu, kontroly kódu, testování a průběžné integrace a průběžné integrace (CI/CD) pro vaše data a projekty AI. Balíčky umožňují popsat prostředky Databricks, jako jsou úlohy, kanály a poznámkové bloky jako zdrojové soubory. Tyto zdrojové soubory poskytují ucelenou definici projektu, včetně toho, jak by měla být strukturovaná, testovaná a nasazená, což usnadňuje spolupráci na projektech během aktivního vývoje.

Sady prostředků poskytují způsob, jak zahrnout metadata spolu se zdrojovými soubory projektu. Při nasazování projektu pomocí sad prostředků se tato metadata používají ke zřízení infrastruktury a dalších prostředků. Kolekce zdrojových souborů a metadat vašeho projektu se pak nasadí jako jedna sada do cílového prostředí. Sada obsahuje následující části:

  • Požadovaná cloudová infrastruktura a konfigurace pracovních prostorů
  • Zdrojové soubory, jako jsou poznámkové bloky a soubory Pythonu, které zahrnují obchodní logiku
  • Definice a nastavení pro prostředky Databricks, jako jsou úlohy Azure Databricks, kanály Delta Live Tables, koncové body obsluhy modelů, experimenty MLflow a registrované modely MLflow
  • Testy jednotek a integrační testy

Následující diagram poskytuje základní pohled na vývojový kanál a kanál CI/CD se sadami:

Přehled sad prostředků Databricks

Kdy mám používat sady prostředků Databricks?

Sady prostředků Databricks představují přístup infrastruktury jako kódu (IaC) ke správě projektů Databricks. Používejte je, když chcete spravovat složité projekty, ve kterých je nezbytné více přispěvatelů a automatizace, a průběžná integrace a nasazování (CI/CD) jsou požadavkem. Vzhledem k tomu, že sady jsou definované a spravované prostřednictvím šablon YAML a souborů, které vytváříte a udržujete společně se zdrojovým kódem, mapují se dobře na scénáře, kde je vhodný přístup IaC.

Mezi ideální scénáře pro balíčky patří:

  • Vývoj dat, analýz a projektů ML v týmovém prostředí Balíčky vám můžou pomoct efektivně uspořádat a spravovat různé zdrojové soubory. To zajišťuje bezproblémovou spolupráci a zjednodušené procesy.
  • Iterace problémů ml rychleji. Spravujte prostředky kanálu ML (například trénování a dávkové odvozování) pomocí projektů ML, které od začátku dodržují osvědčené postupy v produkčním prostředí.
  • Nastavte standardy organizace pro nové projekty vytvořením vlastních šablon sad, které zahrnují výchozí oprávnění, instanční objekty a konfigurace CI/CD.
  • Dodržováníprávníchch předpisů: V odvětvích, kde je dodržování právních předpisů významné, můžou sady prostředků pomoci udržovat historii verzí kódu a infrastruktury. To pomáhá v zásadách správného řízení a zajišťuje splnění nezbytných standardů dodržování předpisů.

Jak fungují sady prostředků Databricks?

Metadata sady jsou definována pomocí souborů YAML, které určují artefakty, prostředky a konfiguraci projektu Databricks. Tento soubor YAML můžete vytvořit ručně nebo ho vygenerovat pomocí šablony sady. Rozhraní příkazového řádku Databricks se pak dá použít k ověření, nasazení a spuštění sad pomocí těchto souborů YAML sady. Projekty sady můžete spouštět přímo z prostředí IDE, terminálů nebo přímo v Databricks. Tento článek používá rozhraní příkazového řádku Databricks.

Sady je možné vytvořit ručně nebo na základě šablony. Rozhraní příkazového řádku Databricks poskytuje výchozí šablony pro jednoduché případy použití, ale pro konkrétnější nebo složitější úlohy můžete vytvořit vlastní šablony sad, které implementují osvědčené postupy vašeho týmu a udržují společné konfigurace konzistentní.

Další podrobnosti o konfiguraci YAML používané k vyjádření sad prostředků Databricks najdete v tématu Konfigurace sady prostředků Databricks.

Konfigurace prostředí tak, aby používalo sady prostředků

Pomocí rozhraní příkazového řádku Databricks můžete snadno nasadit sady prostředků z příkazového řádku. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.

Sady prostředků Databricks jsou k dispozici v Databricks CLI verze 0.218.0 nebo vyšší. Pokud chcete zjistit verzi nainstalovaného rozhraní příkazového řádku Databricks, spusťte následující příkaz:

databricks --version

Po instalaci rozhraní příkazového řádku Databricks ověřte, že jsou vaše vzdálené pracovní prostory Databricks správně nakonfigurované. Sady prostředků vyžadují, aby byla povolená funkce souborů pracovního prostoru, protože tato funkce podporuje práci s jinými soubory než s poznámkovými bloky Databricks, jako .py jsou soubory a .yml soubory. Pokud používáte Databricks Runtime verze 11.3 LTS nebo vyšší, je tato funkce ve výchozím nastavení povolená.

Ověřování

Azure Databricks poskytuje několik metod ověřování:

  • Pro scénáře ověřování, jako jsou ruční pracovní postupy, ve kterých se pomocí webového prohlížeče přihlašujete k cílovému pracovnímu prostoru Azure Databricks (po zobrazení výzvy rozhraní příkazového řádku Databricks) použijte ověřování uživatelem AAuth (U2M). Tato metoda je ideální pro experimentování s úvodními kurzy pro sady prostředků Databricks nebo pro rychlý vývoj sad.
  • Pro scénáře bezobslužného ověřování, jako jsou plně automatizované pracovní postupy, ve kterých není možné použít webový prohlížeč k přihlášení k cílovému pracovnímu prostoru Azure Databricks, použijte ověřování OAuth typu machine-to-machine (M2M). Tato metoda vyžaduje použití instančních objektů Azure Databricks a je ideální pro použití sad prostředků Databricks se systémy CI/CD, jako je GitHub.

Pro ověřování U2M OAuth postupujte takto:

  1. Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.

    V následujícím příkazu nahraďte <workspace-url> adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --host <workspace-url>
    
  2. Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy Enter potvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.

    Pokud chcete získat seznam všech existujících profilů, v samostatném terminálu nebo příkazovém řádku spusťte příkaz databricks auth profilespomocí rozhraní příkazového řádku Databricks . Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkaz databricks auth env --profile <profile-name>.

  3. Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.

  4. Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Pokud máte více profilů se stejnou --host hodnotou, možná budete muset zadat --host společně možnosti a -p pomoct rozhraní příkazového řádku Databricks najít správné odpovídající informace o tokenu OAuth.

Název tohoto konfiguračního profilu můžete použít jedním nebo několika z následujících způsobů, kdykoli ověříte, nasadíte, spustíte nebo zničíte balíčky:

  • S možností -p <profile-name>příkazového řádku , připojenými k příkazům databricks bundle validate, databricks bundle deploy, , databricks bundle runnebo databricks bundle destroy. Podívejte se na vývoj sad prostředků Databricks.
  • Jako hodnota mapování v mapování konfiguračního profile souboru sady nejvyšší úrovně workspace (ačkoli Databricks doporučuje použít host mapování nastavené na adresu URL pracovního prostoru Azure Databricks místo profile mapování, protože to zpřístupňuje konfigurační soubory sady). Podívejte se na profile pokrytí mapování v pracovním prostoru.
  • Pokud je DEFAULTnázev konfiguračního profilu , použije se ve výchozím nastavení, pokud není zadáno mapování -p <profile-name> příkazového řádku nebo profile mapování (nebohost).

Pro ověřování OAuth M2M postupujte takto:

  1. Dokončete pokyny k nastavení ověřování OAuth M2M. Viz Ověření přístupu k Azure Databricks pomocí instančního objektu pomocí OAuth (OAuth M2M).

  2. Nainstalujte rozhraní příkazového řádku Databricks na cílový výpočetní prostředek jedním z následujících způsobů:

    • Pokud chcete rozhraní příkazového řádku Databricks nainstalovat do výpočetního prostředku v reálném čase ručně, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
    • Pokud chcete použít GitHub Actions k automatické instalaci Rozhraní příkazového řádku Databricks na virtuálním počítači GitHubu, přečtěte si téma setup-cli na GitHubu.
    • Pokud chcete k automatické instalaci Rozhraní příkazového řádku Databricks na virtuální počítač použít jiné systémy CI/CD, přečtěte si dokumentaci poskytovatele systému CI/CD a nainstalujte nebo aktualizujte rozhraní příkazového řádku Databricks.
  3. Na výpočetním prostředku nastavte následující proměnné prostředí následujícím způsobem:

    Pokud chcete nastavit tyto proměnné prostředí, přečtěte si dokumentaci k operačnímu systému cílového výpočetního prostředku nebo systému CI/CD.

Vývoj první sady prostředků Databricks

Nejrychlejší způsob, jak začít s vývojem sady, je použití šablony projektu sady. Vytvořte svůj první projekt sady s využitím příkazu inicializačního inicializačního balíčku rozhraní příkazového řádku Databricks. Tento příkaz představuje výběr výchozích šablon sady dat, které jsou poskytované službou Databricks, a klade řadu otázek k inicializaci proměnných projektu.

databricks bundle init

Vytvoření sady je prvním krokem v životním cyklu sady. Druhým krokem je vývoj sady prostředků, což je klíčový prvek, který definuje nastavení sady a prostředky v konfiguračních databricks.yml souborech prostředků. Informace o konfiguraci sady prostředků najdete v tématu Konfigurace sady prostředků Databricks.

Tip

Příklady konfigurace sady najdete v příkladech konfigurace sady a v úložišti Příklady balíčků na GitHubu.

Další kroky