Co je CI/CD v Azure Databricks?
Tento článek je úvodem do CI/CD v Databricks. Průběžná integrace a průběžné doručování (CI/CD) odkazuje na proces vývoje a doručování softwaru v krátkém a častém cyklech používáním kanálů automatizace. CI/CD je společný pro vývoj softwaru a je stále důležitější pro datové inženýrství a datové vědy. Díky automatizaci sestavování, testování a nasazení kódu můžou vývojové týmy spolehlivěji dodávat vydané verze než s ručními procesy, které jsou pro týmy pro datové vědy a datové vědy stále běžné.
Azure Databricks doporučuje používat sady prostředků Databricks pro CI/CD, které umožňují vývoj a nasazení složitých projektů dat, analýz a ML pro platformu Azure Databricks. Sady prostředků umožňují snadnou správu mnoha vlastních konfigurací a automatizaci sestavení, testů a nasazení vašich projektů do vývojových, přípravných a produkčních pracovních prostorů Azure Databricks.
Přehled CI/CD pro projekty strojového učení v Azure Databricks najdete v tématu Jak Databricks podporuje CI/CD pro strojové učení?.
Co je v kanálu CI/CD v Azure Databricks?
Sady prostředků Databricks můžete použít k definování a programové správě implementace CI/CD služby Azure Databricks, která obvykle zahrnuje:
- Poznámkové bloky: Poznámkové bloky Azure Databricks jsou často klíčovou součástí pracovních postupů přípravy dat a datových věd. Pro poznámkové bloky můžete použít správu verzí a také je ověřit a otestovat jako součást kanálu CI/CD. U poznámkových bloků můžete spustit automatizované testy a zkontrolovat, jestli fungují podle očekávání.
- Knihovny: Spravujte závislosti knihovny potřebné ke spuštění nasazeného kódu. Používejte správu verzí u knihoven a zahrňte je do automatizovaného testování a ověřování.
- Pracovní postupy: Úlohy Databricks se skládají z úloh, které umožňují plánovat a spouštět automatizované úlohy pomocí poznámkových bloků nebo úloh Sparku.
- Datové kanály: Datové kanály můžete také zahrnout do automatizace CI/CD pomocí Delta Live Tables, architektury v Databricks pro deklarování datových kanálů.
- Infrastruktura: Konfigurace infrastruktury zahrnuje definice a informace o zřizování pro clustery, pracovní prostory a úložiště pro cílová prostředí. Změny infrastruktury je možné ověřit a testovat jako součást kanálu CI/CD a zajistit tak, aby byly konzistentní a bez chyb.
Postup ci/CD v Azure Databricks
Typický tok pro kanál CI/CD Azure Databricks zahrnuje následující kroky:
- Store: Uložte kód a poznámkové bloky Azure Databricks do systému správy verzí, jako je Git. Díky tomu můžete sledovat změny v průběhu času a spolupracovat s ostatními členy týmu. Prohlédni si techniky CI/CD se složkami Gitu a Databricks Gitu (Repos) a sbalte nastavení Gitu.
- Kód: Vývoj testů kódu a jednotek v poznámkovém bloku Azure Databricks v pracovním prostoru nebo místně pomocí externího integrovaného vývojového prostředí (IDE). Azure Databricks poskytuje rozšíření editoru Visual Studio Code, které usnadňuje vývoj a nasazování změn do pracovních prostorů Azure Databricks.
- Sestavení: Nastavení sady prostředků Databricks slouží k automatickému sestavení určitých artefaktů během nasazení. Viz artefakty. Kromě toho pylint rozšířil o modul plug-in Databricks Labs pylint, který pomáhá vynucovat standardy kódování a zjišťovat chyby v poznámkových blocích Databricks a kódu aplikace.
- Nasazení: Nasazení změn do pracovního prostoru Azure Databricks pomocí sad prostředků Databricks ve spojení s nástroji, jako jsou Azure DevOps, Jenkins nebo GitHub Actions. Viz režimy nasazení sady prostředků Databricks.
- Testování: Vývoj a spouštění automatizovaných testů k ověření změn kódu pomocí nástrojů, jako je pytest. Pokud chcete otestovat integrace s rozhraními API pracovního prostoru, modul plug-in pytest Databricks Labs umožňuje vytvářet objekty pracovního prostoru a vyčistit je po dokončení testů.
- Spuštění: Použití rozhraní příkazového řádku Databricks ve spojení s sadami prostředků Databricks k automatizaci spuštění v pracovních prostorech Azure Databricks. Viz Spuštění úlohy nebo kanálu.
- Monitorování: Monitorování výkonu kódu a pracovních postupů v Azure Databricks pomocí nástrojů, jako je Azure Monitor nebo Datadog. To vám pomůže identifikovat a vyřešit všechny problémy, které vznikají ve vašem produkčním prostředí.
- Iterace: Vylepšete a aktualizujte projekt přípravy dat nebo projektu datových věd o malé a časté iterace. Malé změny se dají snadněji vrátit zpět než velké.
Související odkazy
Další informace o správě životního cyklu prostředků a dat Azure Databricks najdete v následující dokumentaci k nástrojům CI/CD a datových kanálů.
Plocha | Tyto nástroje použijte, když chcete... |
---|---|
Sady prostředků Databricks | Prostřednictvím kódu programu můžete definovat, nasazovat a spouštět úlohy Azure Databricks, kanály Delta Live Tables a zásobníky MLOps s využitím osvědčených postupů a pracovních postupů CI/CD. |
Poskytovatel Terraformu pro Databricks | Zřiďte a spravujte infrastrukturu a prostředky Databricks pomocí Terraformu. |
Pracovní postupy CI/CD se složkami Git a Databricks Git | Ke správě zdrojového kódu a pracovním postupům CI/CD použijte složky GitHub a Databricks. |
Ověřování pomocí Azure DevOps v Databricks | Ověřování pomocí Azure DevOps |
Použití instančního objektu Microsoft Entra k ověření přístupu ke složkám Git v Azure Databricks | Pomocí instančního objektu MS Entra ověřte přístup ke složkám Git Databricks. |
Kontinuální integrace a průběžné doručování v Azure Databricks pomocí Azure DevOps | Vyvíjejte kanál CI/CD pro Azure Databricks, který používá Azure DevOps. |
Průběžná integrace a doručování pomocí GitHub Actions | Vytvořte pracovní postup CI/CD na GitHubu, který používá GitHub Actions vyvinuté pro Azure Databricks. |
CI/CD s Jenkinsem v Azure Databricks | Vyvíjejte kanál CI/CD pro Azure Databricks, který používá Jenkinse. |
Orchestrace úloh Azure Databricks pomocí Apache Airflow | Spravujte a naplánujte datový kanál, který používá Apache Airflow. |
Instanční objekty pro CI/CD | Používejte instanční objekty místo uživatelů se systémy CI/CD. |