Dela via


CI/CD med Databricks resurspaket

Azure Databricks rekommenderar att du använder Databricks-tillgångspaket för CI/CD, vilket förenklar utvecklingen och distributionen av komplexa data-, analys- och ML-projekt för Azure Databricks-plattformen. Med paket kan du enkelt hantera många anpassade konfigurationer och automatisera byggen, tester och distributioner av dina projekt till Azure Databricks-arbetsytor för utveckling, mellanlagring och produktion.

Mer information om rekommenderade CI/CD-metodtips och arbetsflöden med paket finns i Metodtips och rekommenderade CI/CD-arbetsflöden på Databricks.

Information om andra metoder för CI/CD i Databricks finns i CI/CD på Azure Databricks.

Hur använder jag Databricks-tillgångspaket som en del av min CI/CD-pipeline i Azure Databricks?

Du kan använda Databricks-tillgångspaket för att definiera och programmatiskt hantera din Azure Databricks CI/CD-implementering, vilket vanligtvis omfattar:

  • Notebooks: Azure Databricks notebooks är ofta en viktig del av arbetsflödena inom dataingenjörskonst och datavetenskap. Du kan använda versionskontroll för anteckningsböcker och även verifiera samt testa dem som en del av en CI/CD-pipeline. Du kan köra automatiserade tester mot notebook-filer för att kontrollera om de fungerar som förväntat.
  • Bibliotek: Hantera de biblioteksberoenden som krävs för att köra din distribuerade kod. Använd versionskontroll på bibliotek och inkludera dem i automatiserad testning och validering.
  • Arbetsflöden: Lakeflow-jobb består av jobb som gör att du kan schemalägga och köra automatiserade uppgifter med hjälp av notebook-filer eller Spark-jobb.
  • Datapipelines: Du kan också inkludera datapipelines i CI/CD-automatisering, med Lakeflow Deklarativa Pipelines, ramverket i Databricks för deklaration av datapipelines.
  • Infrastruktur: Infrastrukturkonfigurationen innehåller definitioner och etableringsinformation för kluster, arbetsytor och lagring för målmiljöer. Infrastrukturändringar kan verifieras och testas som en del av en CI/CD-pipeline, vilket säkerställer att de är konsekventa och felfria.

Ett vanligt flöde för en Azure Databricks CI/CD-pipeline med paket är:

  1. Store: Lagra din Azure Databricks-kod och dina notebook-filer i ett versionskontrollsystem som Git. På så sätt kan du spåra ändringar över tid och samarbeta med andra teammedlemmar. Se CI/CD med Databricks Git-mappar (Repos) och git-paketinställningar.
  2. Kod: Utveckla kod- och enhetstester i en Azure Databricks-notebook-fil på arbetsytan eller lokalt med hjälp av en extern IDE. Azure Databricks tillhandahåller ett Visual Studio Code-tillägg som gör det enkelt att utveckla och distribuera ändringar till Azure Databricks-arbetsytor.
  3. Skapa: Använd inställningarna för Databricks-tillgångspaket för att automatiskt skapa vissa artefakter under distributioner. Se artefakter. Dessutom kan Pylint, när det utökas med Pylint-plugin från Databricks Labs, hjälpa till att upprätthålla kodningsstandarder och identifiera buggar i dina Databricks-notebooks och programkod.
  4. Distribuera: Distribuera ändringar till Azure Databricks-arbetsytan med databricks-tillgångspaket tillsammans med verktyg som Azure DevOps, Jenkins eller GitHub Actions. Se distributionslägena för Databricks Asset Bundle. GitHub Actions-exempel finns i GitHub Actions.
  5. Test: Utveckla och köra automatiserade tester för att verifiera dina kodändringar med hjälp av verktyg som pytest. För att testa dina integreringar med arbetsyte-API:er kan du med plugin-programmet Databricks Labs pytest skapa arbetsyteobjekt och rensa dem när testerna har slutförts.
  6. Kör: Använd Databricks CLI tillsammans med Databricks-tillgångspaket för att automatisera körningar på dina Azure Databricks-arbetsytor. Se Köra ett jobb eller en pipeline.
  7. Övervaka: Övervaka prestanda för din kod och dina arbetsflöden i Azure Databricks med hjälp av verktyg som Azure Monitor eller Datadog. Detta hjälper dig att identifiera och lösa eventuella problem som uppstår i produktionsmiljön.
  8. Iterate: Gör små, frekventa iterationer för att förbättra och uppdatera ditt datateknik- eller datavetenskapsprojekt. Små ändringar är enklare att återställa än stora.