Delen via


CI/CD met Databricks-Assetbundels

Azure Databricks raadt het gebruik van Databricks Asset Bundles aan voor CI/CD, waarmee de ontwikkeling en implementatie van complexe gegevens, analyses en ML-projecten voor het Azure Databricks-platform wordt vereenvoudigd. Met bundels kunt u eenvoudig veel aangepaste configuraties beheren en builds, tests en implementaties van uw projecten automatiseren in Azure Databricks-ontwikkel-, faserings- en productiewerkruimten.

Zie Best practices en aanbevolen CI/CD-werkstromen op Databricks voor meer informatie over aanbevolen CI/CD-procedures en werkstromen met bundels.

Zie CI/CD in Azure Databricks voor meer informatie over andere methoden voor CI/CD in Databricks.

Hoe gebruik ik Databricks Asset Bundles als onderdeel van mijn CI/CD-pijplijn in Azure Databricks?

U kunt Databricks Asset Bundles gebruiken om uw CI/CD-implementatie van Azure Databricks te definiëren en programmatisch te beheren. Dit omvat meestal:

  • Notebooks: Azure Databricks-notebooks vormen vaak een belangrijk onderdeel van data engineering- en data science-werkstromen. U kunt versiebeheer gebruiken voor notebooks en deze ook valideren en testen als onderdeel van een CI/CD-pijplijn. U kunt geautomatiseerde tests uitvoeren op notebooks om te controleren of ze werken zoals verwacht.
  • Bibliotheken: beheer de bibliotheekafhankelijkheden die nodig zijn om de geïmplementeerde code uit te voeren. Gebruik versiebeheer voor bibliotheken en neem deze op in geautomatiseerde tests en validatie.
  • Werkstromen: Lakeflow-taken bestaan uit taken waarmee u geautomatiseerde taken kunt plannen en uitvoeren met behulp van notebooks of Spark-taken.
  • Gegevenspijplijnen: U kunt ook gegevenspijplijnen opnemen in CI/CD-automatisering, met behulp van declaratieve pijplijnen van Lakeflow, het framework in Databricks voor het declareren van gegevenspijplijnen.
  • Infrastructuurconfiguratie omvat definities en inrichtingsgegevens voor clusters, werkruimten en opslag voor doelomgevingen. Infrastructuurwijzigingen kunnen worden gevalideerd en getest als onderdeel van een CI/CD-pijplijn, zodat ze consistent en foutloos zijn.

Een algemene stroom voor een Azure Databricks CI/CD-pijplijn met bundels is:

  1. Store: Sla uw Azure Databricks-code en -notebooks op in een versiebeheersysteem zoals Git. Zo kunt u wijzigingen in de loop van de tijd bijhouden en samenwerken met andere teamleden. Zie CI/CD met Databricks Git-mappen (Repos) en Git-instellingen bundelen.
  2. Code: Code- en eenheidstests ontwikkelen in een Azure Databricks-notebook in de werkruimte of lokaal met behulp van een externe IDE. Azure Databricks biedt een Visual Studio Code-extensie waarmee u eenvoudig wijzigingen in Azure Databricks-werkruimten kunt ontwikkelen en implementeren.
  3. Build: Gebruik instellingen voor Databricks Asset Bundles om automatisch bepaalde artefacten te bouwen tijdens implementaties. Zie artefacten. Daarnaast helpt Pylint, uitgebreid met de Databricks Labs pylint-plug-in, bij het afdwingen van coderingsstandaarden en het opsporen van fouten in uw Databricks-notebooks en toepassingscode.
  4. Implementeren: Implementeer wijzigingen in de Azure Databricks-werkruimte met behulp van Databricks Asset Bundles in combinatie met hulpprogramma's zoals Azure DevOps, Jenkins of GitHub Actions. Zie de implementatiemodi voor Databricks Asset Bundle. Zie GitHub Actions voor voorbeelden van GitHub Actions.
  5. Test: Ontwikkel en voer geautomatiseerde tests uit om uw codewijzigingen te valideren met behulp van hulpprogramma's zoals pytest. Als u uw integraties met werkruimte-API's wilt testen, kunt u met de Pytest-invoegtoepassing van Databricks Labs werkruimteobjecten maken en ze opschonen nadat de tests zijn voltooid.
  6. Uitvoeren: Gebruik de Databricks CLI in combinatie met Databricks Asset Bundles om uitvoeringen in uw Azure Databricks-werkruimten te automatiseren. Zie Een taak of pijplijn uitvoeren.
  7. Monitor: Bewaak de prestaties van uw code en werkstromen in Azure Databricks met behulp van hulpprogramma's zoals Azure Monitor of Datadog. Dit helpt u bij het identificeren en oplossen van eventuele problemen die zich voordoen in uw productieomgeving.
  8. Iterate: Maak kleine, frequente iteraties om uw data engineering- of data science-project te verbeteren en bij te werken. Kleine wijzigingen zijn gemakkelijker terug te draaien dan grote wijzigingen.