Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Deklarativní balíčky automatizace (dříve označované jako Sady prostředků Databricks) jsou nástroj, který usnadňuje přijetí osvědčených postupů pro softwarové inženýrství, včetně správy zdrojového kódu, kontroly kódu, testování a průběžné integrace a doručování (CI/CD) pro vaše data a projekty AI. Sady prostředků poskytují způsob, jak zahrnout metadata spolu se zdrojovými soubory projektu a umožnit popsat prostředky Databricks, jako jsou úlohy a kanály jako zdrojové soubory. V konečném důsledku je sada komplexní definicí projektu, včetně způsobu strukturování, testování a nasazení projektu. To usnadňuje spolupráci na projektech během aktivního vývoje.
Kolekce zdrojových souborů a metadat projektu vaší sady se nasadí jako jedna sada do cílového prostředí. Sada obsahuje následující části:
- Požadovaná cloudová infrastruktura a konfigurace pracovních prostorů
- Zdrojové soubory, jako jsou poznámkové bloky a soubory Pythonu, které zahrnují obchodní logiku
- Definice a nastavení pro prostředky Databricks, jako jsou úlohy Lakeflow, deklarativní kanály Sparku Lakeflow, řídicí panely, koncové body obsluhy modelů, experimenty MLflow a registrované modely MLflow
- Testy jednotek a integrační testy
Následující diagram poskytuje vysokou úroveň pohledu na kanál pro vývoj a CI/CD s balíčky:
Návod k videu
Toto video ukazuje, jak pracovat se sadami deklarativní automatizace (5 minut).
Kdy mám používat balíčky?
Deklarativní balíčky automatizace představují přístup infrastruktury jako kódu (IaC) ke správě projektů Databricks. Používejte je, když chcete spravovat složité projekty, ve kterých je nezbytné více přispěvatelů a automatizace, a průběžná integrace a nasazování (CI/CD) jsou požadavkem. Vzhledem k tomu, že sady jsou definované a spravované prostřednictvím šablon YAML a souborů, které vytváříte a udržujete společně se zdrojovým kódem, mapují se dobře na scénáře, kde je vhodný přístup IaC.
Mezi ideální scénáře pro balíčky patří:
- Vývoj dat, analýz a projektů ML v týmovém prostředí Balíčky vám můžou pomoct efektivně uspořádat a spravovat různé zdrojové soubory. To zajišťuje bezproblémovou spolupráci a zjednodušené procesy.
- Rychleji řešte problémy strojového učení. Spravujte části ML pipeline (například úlohy trénování a dávkového odvozování) pomocí ML projektů, které od začátku dodržují osvědčené postupy v produkčním prostředí.
- Nastavte standardy organizace pro nové projekty vytvořením vlastních šablon sad, které zahrnují výchozí oprávnění, instanční objekty a konfigurace CI/CD.
- Dodržování právních předpisů: V odvětvích, kde je dodržování právních předpisů významné, mohou balíčky pomoci udržovat verzovanou historii práce na kódu a infrastruktuře. To pomáhá v zásadách správného řízení a zajišťuje splnění nezbytných standardů dodržování předpisů.
Jak fungují balíčky?
Metadata sady jsou definována pomocí souborů YAML, které určují artefakty, prostředky a konfiguraci projektu Databricks. Rozhraní příkazového řádku Databricks může být použito k ověření, nasazení a spuštění balíčků pomocí těchto souborů YAML balíčků. Projekty sady můžete spouštět přímo z prostředí IDE, terminálů nebo přímo v Databricks.
Sady je možné vytvořit ručně nebo na základě šablony. Rozhraní příkazového řádku Databricks poskytuje výchozí šablony pro jednoduché případy použití, ale pro konkrétnější nebo složitější úlohy můžete vytvořit vlastní šablony sad, které implementují osvědčené postupy vašeho týmu a udržují společné konfigurace konzistentní.
Další podrobnosti o konfiguraci YAML používané k vyjádření deklarativních automatizačních sad naleznete v tématu Konfigurace deklarativních automatizačních sad.
Co je potřeba nainstalovat, aby bylo možné používat sady prostředků?
Deklarativní balíčky automatizace jsou funkcí rozhraní příkazového řádku Databricks. Balíčky sestavíte místně, pak pomocí Databricks CLI nasadíte své balíčky do cílových vzdálených pracovních prostorů Databricks a z příkazového řádku v těchto prostorech spustíte pracovní postupy balíčků.
Poznámka:
Pokud chcete jenom používat balíčky v pracovním prostoru, nemusíte instalovat Databricks CLI. Podívejte se na Spolupráce na svazcích v pracovním prostředí.
Sestavení, nasazení a spuštění sad v pracovních prostorech Azure Databricks:
Vzdálené pracovní prostory Databricks musí mít povolené soubory pracovního prostoru. Pokud používáte Databricks Runtime verze 11.3 LTS nebo vyšší, je tato funkce ve výchozím nastavení povolená.
Musíte nainstalovat Rozhraní příkazového řádku Databricks verze v0.218.0 nebo vyšší. Pokud chcete nainstalovat nebo aktualizovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
Databricks doporučuje pravidelně aktualizovat na nejnovější verzi rozhraní příkazového řádku, abyste mohli využívat nové funkce sady. Pokud chcete zjistit verzi nainstalovaného rozhraní příkazového řádku Databricks, spusťte následující příkaz:
databricks --versionNakonfigurovali jste rozhraní příkazového řádku Databricks pro přístup k pracovním prostorům Databricks. Databricks doporučuje nakonfigurovat přístup pomocí ověřování U2M (user-to-machine) OAuth, které je popsáno v tématu Konfigurace přístupu k vašemu pracovnímu prostoru. Další metody ověřování jsou popsány v části Ověřování pro balíčky deklarativní automatizace.
Jak se používají balíčky?
Nejrychlejší způsob, jak začít s vývojem místních sad, je použití šablony projektu sady. Vytvořte svůj první projekt sady pomocí příkazu bundle init v Databricks CLI. Tento příkaz představuje výběr výchozích šablon sady dat, které jsou poskytované službou Databricks, a klade řadu otázek k inicializaci proměnných projektu.
databricks bundle init
Vytvoření sady je prvním krokem v životním cyklu sady. Dále vyvíjejte sadu definováním nastavení a prostředků sady v konfiguračních souborech databricks.yml a v konfiguračních souborech prostředků. Nakonec ověřte a nasaďte svůj balíček a poté spusťte své pracovní postupy.
Návod
Příklady konfigurace sady najdete v příkladech konfigurace sady a v úložišti Příklady balíčků na GitHubu.
Další kroky
- Vytvořte sadu, která nasadí poznámkový blok do pracovního prostoru Azure Databricks a následně spustí tento nasazený poznámkový blok v úloze nebo pipelinu Azure Databricks. Viz Vývoj úlohy s využitím deklarativních automatizačních sad a vývoj kanálů pomocí deklarativních automatizačních sad.
- Vytvořte balíček, který nasadí a spustí MLOps Stack. Viz deklarativní balíčky automatizace pro zásobníky MLOps.
- Zahajte nasazení sady v rámci pracovního postupu CI/CD (kontinuální integrace/průběžného nasazování) na GitHubu. Viz Spuštění CI/CD pracovního postupu s balíčkem, který provádí aktualizaci pipeline.
- Vytvořte balíček, který sestaví, nasadí a zavolá Python wheel soubor. Viz Sestavení Python wheel souboru pomocí deklarativních automatizačních balíčků.
- Vygenerujte konfiguraci ve vašem balíčku pro úlohu nebo jiný prostředek ve vašem pracovním prostoru, a poté ji připojte k prostředku v pracovním prostoru, aby konfigurace zůstala synchronizovaná. Viz databricks bundle generate a databricks bundle deployment bind.
- Vytvořte a nasaďte balíček v pracovním prostoru. Podívejte se na Spolupráce na svazcích v pracovním prostředí.
- Vytvořte vlastní šablonu, kterou můžete vy i ostatní použít k vytvoření sady. Vlastní šablona může zahrnovat výchozí oprávnění, instanční objekty a vlastní konfiguraci CI/CD. Viz Šablony projektů balíčků deklarativní automatizace.
- Migrace z dbx na deklarativní automatizační sady Podívejte se na Migrovat z dbx do balíčků.
- Seznamte se s nejnovějšími hlavními novými funkcemi vydanými pro balíčky deklarativní automatizace. Viz poznámky k verzi funkcí deklarativních balíčků automatizace.