Partager via


Que sont les packs de ressources Databricks ?

Databricks Asset Bundles est un outil permettant de faciliter l’adoption des meilleures pratiques en matière d’ingénierie logicielle, notamment le contrôle de code source, la révision du code, les tests et la livraison continue (CI/CD), pour vos projets de données et d’IA. Les offres groupées permettent d’inclure des métadonnées en même temps que les fichiers sources de votre projet et de décrire les ressources Databricks telles que les travaux et les pipelines en tant que fichiers sources. Finalement, un bundle est une définition de bout en bout d’un projet, notamment la façon dont le projet doit être structuré, testé et déployé. Cela facilite la collaboration sur des projets pendant le développement actif.

La collection de fichiers sources et de métadonnées de votre projet groupé est déployée en tant qu’offre groupée unique dans votre environnement cible. Un pack se compose des parties suivantes :

  • Configurations requises de l’infrastructure cloud et de l’espace de travail
  • Des fichiers sources, tels que des notebooks et des fichiers Python, qui incluent la logique métier
  • Définitions et paramètres pour les ressources Databricks, comme les tâches Lakeflow, les pipelines déclaratifs Lakeflow, les points de terminaison de déploiement de modèles, les expériences MLflow et les modèles enregistrés MLflow.
  • Des tests unitaires et d’intégration

Le diagramme suivant fournit une vue générale d’un pipeline de développement et CI/CD avec des bundles :

Vue d’ensemble des bundles de ressources Databricks

Quand dois-je utiliser les regroupements de ressources Databricks ?

Les regroupements de ressources Databricks sont une approche IaC (Infrastructure-as-code) pour gérer vos projets Databricks. Utilisez-les lorsque vous souhaitez gérer des projets complexes où plusieurs contributeurs et automatisations sont essentiels, et l’intégration et le déploiement continus (CI/CD) sont requis. Étant donné que les regroupements sont définis et gérés par le biais de modèles et de fichiers YAML que vous créez et gérez en même temps que le code source, ils correspondent aux scénarios où IaC est une approche appropriée.

Voici quelques-uns des meilleurs scénarios pour les bundles :

  • Développez des données, analyses et projets ML dans un environnement basé sur l’équipe. Les packs peuvent vous permettre de vous organiser et de gérer efficacement divers fichiers sources. Ils garantissent une collaboration harmonieuse et des processus simplifiés.
  • Itérez plus rapidement sur des problèmes ML. Gérez des ressources de pipeline ML (telles que des formations et des travaux d’inférence par lots) en utilisant des projets ML qui suivent les meilleures pratiques de production dès le début.
  • Définissez des normes d’organisation pour de nouveaux projets en créant des modèles de pack personnalisés qui incluent des autorisations, des principaux de service et des configurations CI/CD par défaut.
  • Conformité réglementaire : Dans les industries où la conformité réglementaire est une préoccupation significative, les ensembles peuvent aider à conserver un historique versionné du code et des travaux d'infrastructure. Cela facilite la gouvernance et permet de veiller à ce que les normes de conformité nécessaires soient satisfaites.

Comment fonctionnent les regroupements de ressources Databricks ?

Les métadonnées de regroupement sont définies à l’aide de fichiers YAML qui spécifient les artefacts, les ressources et la configuration d’un projet Databricks. Vous pouvez ensuite utiliser l’interface CLI Databricks pour valider, déployer et exécuter des regroupements à l’aide de ces fichiers YAML regroupés. Vous pouvez exécuter des projets regroupés à partir d’IDE, de terminaux ou directement dans Databricks.

Vous pouvez créer des regroupements manuellement ou sur la base d’un modèle. L’interface CLI Databricks fournit des modèles par défaut pour des cas d’usage simples, mais pour des travaux plus spécifiques ou complexes, vous pouvez créer des modèles de bundle personnalisés pour implémenter les meilleures pratiques de votre équipe et maintenir la cohérence des configurations courantes.

Pour plus d’informations sur la configuration YAML utilisée pour exprimer les packs de ressources Databricks, consultez Configuration des packs de ressources Databricks.

Spécifications

Les bundles de ressources Databricks sont une fonctionnalité de l’interface CLI Databricks. Vous générez des bundles localement, puis utilisez l’interface CLI Databricks pour déployer vos offres groupées pour cibler des espaces de travail Databricks distants et exécuter des flux de travail groupés dans ces espaces de travail à partir de la ligne de commande.

Pour générer, déployer et exécuter des bundles dans vos espaces de travail Azure Databricks :

  • Vos espaces de travail Databricks distants doivent avoir des fichiers d’espace de travail activés. Si vous utilisez Databricks Runtime version 11.3 LTS ou ultérieure, cette fonctionnalité est activée par défaut.

  • Vous devez installer l’interface CLI Databricks, version v0.218.0 ou ultérieure. Pour installer ou mettre à jour l’interface CLI Databricks, consultez Installer ou mettre à jour l’interface CLI Databricks.

    Databricks vous recommande de mettre régulièrement à jour vers la dernière version de l’interface CLI pour tirer parti des nouvelles fonctionnalités de bundle. Pour trouver la version de l’interface CLI Databricks installée, exécutez la commande suivante :

    databricks --version
    
  • Vous avez configuré l’interface CLI Databricks pour accéder à vos espaces de travail Databricks. Databricks recommande de configurer l’accès à l’aide de l’authentification utilisateur à machine (U2M), qui est décrite dans Configurer l’accès à votre espace de travail. D’autres méthodes d’authentification sont décrites dans Authentication for Databricks Asset Bundles.

Comment prendre en main les offres groupées ?

Le moyen le plus rapide de démarrer le développement de bundles consiste à utiliser un modèle de projet groupé. Créez votre premier projet de pack à l’aide de la commande de pack init de l’interface CLI Databricks. Cette commande présente un choix de modèles de pack par défaut fournis par Databricks et pose une série de questions pour initialiser des variables de projet.

databricks bundle init

La création de votre pack est la première étape du cycle de vie d’un pack. Ensuite, développez votre paquet en définissant les paramètres du paquet et les ressources dans les databricks.yml fichiers de configuration des ressources. Enfin, validez et déployez votre bundle, puis exécutez vos flux de travail.

Conseil

Vous trouverez des exemples de configurations de packs dans Exemples de configurations de packs et le référentiel d’exemples de packs dans GitHub.

Étapes suivantes