Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Azure Databricks recommande d’utiliser des bundles de ressources Databricks pour CI/CD, qui simplifient le développement et le déploiement de projets complexes de données, d’analyse et de ML pour la plateforme Azure Databricks. Les offres groupées vous permettent de gérer facilement de nombreuses configurations personnalisées et d’automatiser les builds, les tests et les déploiements de vos projets sur des espaces de travail de développement, de préproduction et de production Azure Databricks.
Pour plus d’informations sur les meilleures pratiques ci/CD recommandées et les flux de travail avec des bundles, consultez Meilleures pratiques et flux de travail CI/CD recommandés sur Databricks.
Pour plus d’informations sur les autres approches de CI/CD dans Databricks, consultez CI/CD sur Azure Databricks.
Comment utiliser databricks Asset Bundles dans le cadre de mon pipeline CI/CD sur Azure Databricks ?
Vous pouvez utiliser les bundles de ressources Databricks pour définir et gérer par programmation votre implémentation CI/CD Azure Databricks, qui inclut généralement :
- Notebooks : les notebooks Azure Databricks font souvent partie intégrante des workflows d’ingénierie des données et de science des données. Vous pouvez utiliser la gestion de version pour les notebooks, ainsi que les valider et les tester dans le cadre d’un pipeline CI/CD. Vous pouvez exécuter des tests automatisés sur des notebooks pour vérifier s’ils fonctionnent comme prévu.
- Bibliothèques : gérez les dépendances de bibliothèque requises pour exécuter votre code déployé. Utilisez le contrôle de version sur les bibliothèques et incluez-les dans les tests et la validation automatisés.
- Flux de travail : Les jobs Lakeflow permettent de planifier et d’exécuter des tâches automatisées à l’aide de notebooks ou de jobs Spark.
- Pipelines de données : vous pouvez aussi intégrer des pipelines de données dans l’automatisation CI/CD en utilisant les pipelines déclaratifs Lakeflow, le cadre de Databricks pour déclarer des pipelines de données.
- Infrastructure : la configuration de l’infrastructure inclut des définitions et des informations d’approvisionnement pour les clusters, les espaces de travail et le stockage pour les environnements cibles. Les modifications d’infrastructure peuvent être validées et testées dans le cadre d’un pipeline CI/CD, ce qui garantit qu’elles sont cohérentes et sans erreur.
Un flux courant pour un pipeline CI/CD Azure Databricks avec des bundles est le suivant :
- Stocker : stockez votre code et vos notebooks Azure Databricks dans un système de gestion de version comme Git. Cela vous permet de suivre les modifications au fil du temps et de collaborer avec d’autres membres de l’équipe. Consultez CI/CD avec les dossiers Git Databricks (Repos) et les paramètres Git groupés.
- Code : développez du code et des tests unitaires dans un notebook Azure Databricks dans l’espace de travail ou localement à l’aide d’un IDE externe. Azure Databricks fournit une extension Visual Studio Code qui facilite le développement et le déploiement de modifications dans des espaces de travail Azure Databricks.
- Build : utilisez les paramètres Databricks Asset Bundles pour générer automatiquement certains artefacts pendant les déploiements. Consultez artifacts. En outre, Pylint étendu avec le plug-in Pylint Databricks Labs permet d’appliquer des normes de codage et de détecter des bogues dans vos notebooks Databricks et le code d’application.
- Déployer : déployez des modifications dans l’espace de travail Azure Databricks à l’aide de Bundles de ressources Databricks conjointement avec des outils tels qu’Azure DevOps, Jenkins ou GitHub Actions. Consultez les modes de déploiement de Databricks Asset Bundle . Pour obtenir des exemples GitHub Actions, consultez GitHub Actions.
- Test : développez et exécutez des tests automatisés pour valider vos modifications de code à l’aide d’outils tels que pytest. Pour tester vos intégrations avec les API d’espace de travail, le plug-in Pytest Databricks Labs vous permet de créer des objets d’espace de travail et de les nettoyer une fois les tests terminés.
- Exécuter : utilisez l’interface CLI Databricks conjointement avec databricks Asset Bundles pour automatiser les exécutions dans vos espaces de travail Azure Databricks. Consultez Exécuter un travail ou un pipeline.
- Moniteur : surveillez les performances de votre code et flux de travail dans Azure Databricks à l’aide d’outils tels qu’Azure Monitor ou Datadog. Cela vous permet d’identifier et de résoudre les problèmes qui surviennent dans votre environnement de production.
- Itérer : effectuez de petites itérations fréquentes pour améliorer et mettre à jour votre projet d’ingénierie des données ou de science des données. Les petites modifications sont plus faciles à restaurer que les grandes.