Wat is CI/CD in Azure Databricks?

Artikel
04/25/2024

Dit artikel is een inleiding tot CI/CD op Databricks. Continue integratie en continue levering (CI/CD) verwijst naar het proces van het ontwikkelen en leveren van software in korte, frequente cycli door het gebruik van automatiseringspijplijnen. CI/CD is gebruikelijk voor softwareontwikkeling en wordt steeds meer nodig voor data engineering en data science. Door het bouwen, testen en implementeren van code te automatiseren, kunnen ontwikkelteams betrouwbaarder releases leveren dan met de handmatige processen die nog steeds gebruikelijk zijn voor data engineering- en data science-teams.

Azure Databricks raadt aan om Databricks Asset Bundles te gebruiken voor CI/CD, waarmee complexe gegevens, analyses en ML-projecten kunnen worden ontwikkeld en geïmplementeerd voor het Azure Databricks-platform. Met bundels kunt u eenvoudig veel aangepaste configuraties beheren en builds, tests en implementaties van uw projecten automatiseren in Azure Databricks-ontwikkel-, faserings- en productiewerkruimten.

Zie Hoe biedt Databricks ondersteuning voor CI/CD voor machine learning-projecten in Azure Databricks voor machine learning.

Wat is er in een CI/CD-pijplijn in Azure Databricks?

U kunt Databricks Asset Bundles gebruiken om uw CI/CD-implementatie van Azure Databricks te definiëren en programmatisch te beheren. Dit omvat meestal:

Notebooks: Azure Databricks-notebooks vormen vaak een belangrijk onderdeel van data engineering- en data science-werkstromen. U kunt versiebeheer gebruiken voor notebooks en deze ook valideren en testen als onderdeel van een CI/CD-pijplijn. U kunt geautomatiseerde tests uitvoeren op notebooks om te controleren of ze werken zoals verwacht.
Bibliotheken: beheer de bibliotheekafhankelijkheden die nodig zijn om de geïmplementeerde code uit te voeren. Gebruik versiebeheer voor bibliotheken en neem deze op in geautomatiseerde tests en validatie.
Werkstromen: Databricks-werkstromen bestaan uit taken waarmee u geautomatiseerde taken kunt plannen en uitvoeren met behulp van notebooks of Spark-taken.
Gegevenspijplijnen: U kunt ook gegevenspijplijnen opnemen in CI/CD-automatisering, met behulp van Delta Live Tables, het framework in Databricks voor het declareren van gegevenspijplijnen.
Infrastructuurconfiguratie omvat definities en inrichtingsgegevens voor clusters, werkruimten en opslag voor doelomgevingen. Infrastructuurwijzigingen kunnen worden gevalideerd en getest als onderdeel van een CI/CD-pijplijn, zodat ze consistent en foutloos zijn.

Stappen voor CI/CD in Azure Databricks

Een typische stroom voor een Azure Databricks CI/CD-pijplijn omvat de volgende stappen:

Store: Sla uw Azure Databricks-code en -notebooks op in een versiebeheersysteem zoals Git. Zo kunt u wijzigingen in de loop van de tijd bijhouden en samenwerken met andere teamleden. Zie CI/CD-technieken met Git- en Databricks Git-mappen (opslagplaatsen) en bundel Git-instellingen.
Code: Code- en eenheidstests ontwikkelen in een Azure Databricks-notebook in de werkruimte of lokaal met behulp van een externe IDE. Azure Databricks biedt een Visual Studio Code-extensie waarmee u eenvoudig wijzigingen in Azure Databricks-werkruimten kunt ontwikkelen en implementeren.
Build: Gebruik instellingen voor Databricks Asset Bundles om automatisch bepaalde artefacten te bouwen tijdens implementaties. Zie artefacten.
Implementeren: Implementeer wijzigingen in de Azure Databricks-werkruimte met behulp van Databricks Asset Bundles in combinatie met hulpprogramma's zoals Azure DevOps, Jenkins of GitHub Actions. Zie de implementatiemodi voor Databricks Asset Bundle.
Test: Ontwikkel en voer geautomatiseerde tests uit om uw codewijzigingen te valideren met behulp van hulpprogramma's zoals pytest.
Uitvoeren: Gebruik de Databricks CLI in combinatie met Databricks Asset Bundles om uitvoeringen in uw Azure Databricks-werkruimten te automatiseren. Zie Een bundel uitvoeren.
Monitor: Bewaak de prestaties van uw code en werkstromen in Azure Databricks met behulp van hulpprogramma's zoals Azure Monitor of Datadog. Dit helpt u bij het identificeren en oplossen van eventuele problemen die zich voordoen in uw productieomgeving.
Herhalen: Maak kleine, frequente iteraties om uw data engineering- of data science-project te verbeteren en bij te werken. Kleine wijzigingen zijn gemakkelijker terug te draaien dan grote wijzigingen.

Zie de volgende documentatie over CI/CD en hulpprogramma's voor gegevenspijplijnen voor meer informatie over het beheren van de levenscyclus van Azure Databricks-assets en -gegevens.

Gebied	Gebruik deze hulpprogramma's als u wilt...
Databricks Asset Bundles	Programmatisch Azure Databricks-taken, Delta Live Tables-pijplijnen en MLOps-stacks definiëren, implementeren en uitvoeren met behulp van aanbevolen procedures en werkstromen voor CI/CD.
CI/CD-werkstromen met Git- en Databricks Git-mappen	Gebruik GitHub- en Databricks Git-mappen voor broncodebeheer en CI/CD-werkstromen.
Continue integratie en levering op Azure Databricks met behulp van Azure DevOps	Ontwikkel een CI/CD-pipleine voor Azure Databricks die gebruikmaakt van Azure DevOps.
Continue integratie en levering met behulp van GitHub Actions	Ontwikkel een CI/CD-werkstroom op GitHub die gebruikmaakt van GitHub Actions die zijn ontwikkeld voor Azure Databricks.
CI/CD met Jenkins in Azure Databricks	Ontwikkel een CI/CD-pijplijn voor Azure Databricks die gebruikmaakt van Jenkins.
Azure Databricks-taken organiseren met Apache Airflow	Een gegevenspijplijn beheren en plannen die gebruikmaakt van Apache Airflow.
Service-principals voor CI/CD	Gebruik service-principals in plaats van gebruikers met CI/CD-systemen.

Share via

Wat is CI/CD in Azure Databricks?

Wat is er in een CI/CD-pijplijn in Azure Databricks?

Stappen voor CI/CD in Azure Databricks

Aanvullende resources

Share via

Wat is CI/CD in Azure Databricks?

Wat is er in een CI/CD-pijplijn in Azure Databricks?

Stappen voor CI/CD in Azure Databricks

Verwante koppelingen

Aanvullende resources