Sdílet prostřednictvím


Co je CI/CD v Azure Databricks?

Tento článek je úvodem do CI/CD v Databricks. Průběžná integrace a průběžné doručování (CI/CD) odkazuje na proces vývoje a doručování softwaru v krátkém a častém cyklech používáním kanálů automatizace. CI/CD je společný pro vývoj softwaru a je stále důležitější pro datové inženýrství a datové vědy. Díky automatizaci sestavování, testování a nasazení kódu můžou vývojové týmy spolehlivěji dodávat vydané verze než s ručními procesy, které jsou pro týmy pro datové vědy a datové vědy stále běžné.

Azure Databricks doporučuje používat sady prostředků Databricks pro CI/CD, které umožňují vývoj a nasazení složitých projektů dat, analýz a ML pro platformu Azure Databricks. Sady prostředků umožňují snadnou správu mnoha vlastních konfigurací a automatizaci sestavení, testů a nasazení vašich projektů do vývojových, přípravných a produkčních pracovních prostorů Azure Databricks.

Přehled CI/CD pro projekty strojového učení v Azure Databricks najdete v tématu Jak Databricks podporuje CI/CD pro strojové učení?.

Co je v kanálu CI/CD v Azure Databricks?

Sady prostředků Databricks můžete použít k definování a programové správě implementace CI/CD služby Azure Databricks, která obvykle zahrnuje:

  • Poznámkové bloky: Poznámkové bloky Azure Databricks jsou často klíčovou součástí pracovních postupů přípravy dat a datových věd. Pro poznámkové bloky můžete použít správu verzí a také je ověřit a otestovat jako součást kanálu CI/CD. U poznámkových bloků můžete spustit automatizované testy a zkontrolovat, jestli fungují podle očekávání.
  • Knihovny: Spravujte závislosti knihovny potřebné ke spuštění nasazeného kódu. Používejte správu verzí u knihoven a zahrňte je do automatizovaného testování a ověřování.
  • Pracovní postupy: Úlohy Databricks se skládají z úloh, které umožňují plánovat a spouštět automatizované úlohy pomocí poznámkových bloků nebo úloh Sparku.
  • Datové kanály: Datové kanály můžete také zahrnout do automatizace CI/CD pomocí Delta Live Tables, architektury v Databricks pro deklarování datových kanálů.
  • Infrastruktura: Konfigurace infrastruktury zahrnuje definice a informace o zřizování pro clustery, pracovní prostory a úložiště pro cílová prostředí. Změny infrastruktury je možné ověřit a testovat jako součást kanálu CI/CD a zajistit tak, aby byly konzistentní a bez chyb.

Postup ci/CD v Azure Databricks

Typický tok pro kanál CI/CD Azure Databricks zahrnuje následující kroky:

  1. Store: Uložte kód a poznámkové bloky Azure Databricks do systému správy verzí, jako je Git. Díky tomu můžete sledovat změny v průběhu času a spolupracovat s ostatními členy týmu. Prohlédni si techniky CI/CD se složkami Gitu a Databricks Gitu (Repos) a sbalte nastavení Gitu.
  2. Kód: Vývoj testů kódu a jednotek v poznámkovém bloku Azure Databricks v pracovním prostoru nebo místně pomocí externího integrovaného vývojového prostředí (IDE). Azure Databricks poskytuje rozšíření editoru Visual Studio Code, které usnadňuje vývoj a nasazování změn do pracovních prostorů Azure Databricks.
  3. Sestavení: Nastavení sady prostředků Databricks slouží k automatickému sestavení určitých artefaktů během nasazení. Viz artefakty. Kromě toho pylint rozšířil o modul plug-in Databricks Labs pylint, který pomáhá vynucovat standardy kódování a zjišťovat chyby v poznámkových blocích Databricks a kódu aplikace.
  4. Nasazení: Nasazení změn do pracovního prostoru Azure Databricks pomocí sad prostředků Databricks ve spojení s nástroji, jako jsou Azure DevOps, Jenkins nebo GitHub Actions. Viz režimy nasazení sady prostředků Databricks.
  5. Testování: Vývoj a spouštění automatizovaných testů k ověření změn kódu pomocí nástrojů, jako je pytest. Pokud chcete otestovat integrace s rozhraními API pracovního prostoru, modul plug-in pytest Databricks Labs umožňuje vytvářet objekty pracovního prostoru a vyčistit je po dokončení testů.
  6. Spuštění: Použití rozhraní příkazového řádku Databricks ve spojení s sadami prostředků Databricks k automatizaci spuštění v pracovních prostorech Azure Databricks. Viz Spuštění úlohy nebo kanálu.
  7. Monitorování: Monitorování výkonu kódu a pracovních postupů v Azure Databricks pomocí nástrojů, jako je Azure Monitor nebo Datadog. To vám pomůže identifikovat a vyřešit všechny problémy, které vznikají ve vašem produkčním prostředí.
  8. Iterace: Vylepšete a aktualizujte projekt přípravy dat nebo projektu datových věd o malé a časté iterace. Malé změny se dají snadněji vrátit zpět než velké.

Další informace o správě životního cyklu prostředků a dat Azure Databricks najdete v následující dokumentaci k nástrojům CI/CD a datových kanálů.

Plocha Tyto nástroje použijte, když chcete...
Sady prostředků Databricks Prostřednictvím kódu programu můžete definovat, nasazovat a spouštět úlohy Azure Databricks, kanály Delta Live Tables a zásobníky MLOps s využitím osvědčených postupů a pracovních postupů CI/CD.
Poskytovatel Terraformu pro Databricks Zřiďte a spravujte infrastrukturu a prostředky Databricks pomocí Terraformu.
Pracovní postupy CI/CD se složkami Git a Databricks Git Ke správě zdrojového kódu a pracovním postupům CI/CD použijte složky GitHub a Databricks.
Ověřování pomocí Azure DevOps v Databricks Ověřování pomocí Azure DevOps
Použití instančního objektu Microsoft Entra k ověření přístupu ke složkám Git v Azure Databricks Pomocí instančního objektu MS Entra ověřte přístup ke složkám Git Databricks.
Kontinuální integrace a průběžné doručování v Azure Databricks pomocí Azure DevOps Vyvíjejte kanál CI/CD pro Azure Databricks, který používá Azure DevOps.
Průběžná integrace a doručování pomocí GitHub Actions Vytvořte pracovní postup CI/CD na GitHubu, který používá GitHub Actions vyvinuté pro Azure Databricks.
CI/CD s Jenkinsem v Azure Databricks Vyvíjejte kanál CI/CD pro Azure Databricks, který používá Jenkinse.
Orchestrace úloh Azure Databricks pomocí Apache Airflow Spravujte a naplánujte datový kanál, který používá Apache Airflow.
Instanční objekty pro CI/CD Používejte instanční objekty místo uživatelů se systémy CI/CD.