Configurer le calcul pour les projets
Cet article contient des recommandations et des ressources pour la configuration du calcul pour les projets Databricks.
Important
Les limitations du calcul serverless pour les projets sont les suivantes :
- Aucune prise en charge de la planification continue.
- Aucune prise en charge des déclencheurs d’intervalle par défaut ou basés sur le temps dans Structured Streaming.
Pour plus de limitations, consultez Limitations du calcul serverless.
Chaque projet peut comporter une ou plusieurs tâches. Définissez des ressources de calcul pour chaque tâche. Plusieurs tâches définies pour le même projet peuvent utiliser la même ressource de calcul.
Quelle est la capacité de calcul recommandée pour chaque tâche ?
Le tableau suivant indique les types de capacité de calcul recommandés et pris en charge pour chaque type de tâche.
Remarque
Le calcul serverless pour les projets présente des limitations et ne prend pas en charge toutes les charges de travail. Consultez Limitations du calcul serverless.
Tâche | Capacité de calcul recommandée | Calcul pris en charge |
---|---|---|
Blocs-notes | Projets serverless | Projets serverless, projets classiques, à usage universel classique |
Script Python | Projets serverless | Projets serverless, projets classiques, à usage universel classique |
Roue Python | Projets serverless | Projets serverless, projets classiques, à usage universel classique |
SQL | Entrepôt SQL serverless | Entrepôt SQL serverless, entrepôt SQL pro |
Pipeline Delta Live Tables | Pipeline serverless | Pipeline serverless, pipeline classique |
dbt | Entrepôt SQL serverless | Entrepôt SQL serverless, entrepôt SQL pro |
Commandes CLI dbt | Projets serverless | Projets serverless, projets classiques, à usage universel classique |
JAR | Projets classiques | Projets classiques, à usage universel classique |
Envoi Spark | Projets classiques | Projets classiques |
La tarification des projets est liée à la capacité de calcul utilisée pour exécuter des tâches. Pour plus d’informations, consultez Tarification Databricks.
Comment faire pour configurer la capacité de calcul pour les projets ?
Le calcul des projets classiques est configuré directement à partir de l’IU des projets Databricks, et ces configurations font partie de la définition du travail. Tous les autres types de capacité de calcul disponibles stockent leurs configurations avec d’autres ressources d’espace de travail. Le tableau suivant fournit plus de détails :
Type de capacité de calcul | Détails |
---|---|
Capacité de calcul classique | Vous configurez la capacité de calcul pour les projets classiques à l’aide de la même IU et des mêmes paramètres que ceux disponibles pour le calcul à usage général. Consultez Informations de référence sur la configuration de calcul. |
Calcul serverless pour les travaux | Le calcul serverless pour les projets constitue la valeur par défaut pour toutes les tâches qui le prennent en charge. Databricks gère les paramètres de capacité de calcul pour le calcul serverless. Consultez Exécuter votre tâche Azure Databricks avec un calcul serverless pour les flux de travail. nn Un administrateur d’espace de travail doit activer le calcul serverless pour que cette option soit visible. Voir Activer le calcul serverless. |
Entrepôts SQL | Les entrepôts SQL serverless et pro sont configurés par les administrateurs de l’espace de travail ou les utilisateurs disposant de privilèges de création de groupement illimités. Vous configurez les tâches à exécuter sur des entrepôts SQL existants. Consultez Se connecter à un entrepôt SQL. |
Capacité de calcul de pipeline Delta Live Tables | Vous configurez les paramètres de la capacité de calcul pour les pipelines Delta Live Tables pendant la configuration du pipeline. Consultez Configurer le calcul pour un pipeline Delta Live Tables. nn Azure Databricks gère les ressources de la capacité de calcul pour les pipelines Delta Live Tables serverless. Consultez Configurer un pipeline Delta Live Tables serverless. |
Calcul à usage général | Vous pouvez éventuellement configurer des tâches à l’aide du calcul à usage général classique. Databricks ne recommande pas cette configuration pour les projets de production. Consultez Référence de configuration de capacité de calcul et Le calcul à usage général doit-il être utilisé pour les projets ? |
Partager la capacité de calcul entre les tâches
Configurez les tâches pour utiliser les mêmes ressources de capacité de calcul de projets pour optimiser l’utilisation des ressources avec des projets qui orchestrent plusieurs tâches. Le partage de la capacité de calcul entre les tâches peut réduire la latence associée aux temps de démarrage.
Vous pouvez utiliser une seule ressource de capacité de calcul pour exécuter toutes les tâches qui font partie du projet ou plusieurs ressources optimisées pour des charges de travail spécifiques. Toute capacité de calcul configurée dans le cadre d’un projet est disponible pour toutes les autres tâches du projet.
Le tableau suivant met en évidence les différences entre la capacité de calcul du projet configurée pour une seule tâche et la capacité de calcul du projet partagé entre plusieurs tâches :
Une seule tâche | Partagée entre les tâches | |
---|---|---|
Démarrer | Lorsque l’exécution de la tâche commence. | Lorsque la première exécution de tâche configurée pour utiliser la ressource de capacité de calcul commence. |
Terminer. | Une fois la tâche exécutée. | Après l’exécution de la dernière tâche configurée pour utiliser la ressource de capacité de calcul. |
Calcul inactif | Non applicable. | La capacité de calcul reste active et inactive pendant que les tâches n’utilisant pas la ressource de capacité de calcul s’exécutent. |
Un cluster de travail partagé est limité à une seule exécution de travail et ne peut pas être utilisé par d’autres travaux ou d’autres exécutions du même travail.
Les bibliothèques ne peuvent pas être déclarées dans la configuration d’un cluster de travail partagé. Vous devez ajouter des bibliothèques dépendantes dans les paramètres de tâche.
Réviser, configurer et basculer la capacité de calcul des projets
La section Capacité de calcul dans le panneau Détails de projet répertorie toutes les capacités de calcul configurées pour les tâches du projet en cours.
Les tâches configurées pour utiliser une ressource de capacité de calcul sont mises en évidence dans le graphique de tâche lorsque vous passez sur la spécification de capacité de calcul.
Utilisez le bouton Basculer pour modifier la capacité de calcul pour toutes les tâches associées à une ressource de capacité de calcul.
Les ressources de capacité de calcul de projets classique disposent d’une option Configurer. D’autres ressources de capacité de calcul vous permettent de consulter et de modifier les détails de configuration de la capacité de calcul.
Recommandations pour la configuration de la capacité de calcul de projets classique
Cette section se concentre sur des recommandations générales concernant des caractéristiques et des configurations qui peuvent être utiles à certains flux de travail. Les recommandations spécifiques pour la configuration de la taille et des types de ressources de capacité de calcul varient en fonction de la charge de travail.
Databricks recommande d’activer Photon Acceleration, d’utiliser des versions récentes de Databricks Runtime et d’utiliser la capacité de calcul configurée pour Unity Catalog.
Le calcul serverless pour les projets gère toutes les infrastructures, supprimant ainsi les considérations suivantes. Consultez Exécuter votre tâche Azure Databricks avec un calcul serverless pour les flux de travail.
Remarque
Les flux de travail de Structured Streaming disposent de recommandations spécifiques. Consultez Considérations relatives à la production pour flux structuré.
Utiliser le mode d’accès partagé
Databricks recommande d’utiliser le mode d’accès partagé pour les projets. Voir Modes d’accès aux fichiers.
Remarque
Le mode d’accès partagé ne prend pas en charge certaines charges de travail et caractéristiques. Databricks recommande d’utiliser le mode d’accès d’utilisateur unique pour ces charges de travail. Consulter Limitations des mode d’accès au calcul pour Unity Catalog.
Utiliser des stratégies de cluster
Databricks recommande aux administrateurs de l’espace de travail de définir des stratégies de groupement pour les projets et mettre en œuvre ces stratégies pour tous les utilisateurs qui configurent des projets.
Les stratégies de groupement permettent aux administrateurs d’espace de travail de définir des contrôles de coût et de limiter les options de configuration des utilisateurs. Pour plus d’informations sur la configuration des stratégies de groupement, consultez Créer et gérer des stratégies de capacité de calcul.
Azure Databricks fournit une stratégie par défaut configurée pour les projets. Les administrateurs peuvent rendre cette stratégie disponible pour d’autres utilisateurs de l’espace de travail. Consultez Capacité de calcul de projet.
Recourir à la mise à l’échelle automatique
Configurez la mise à l’échelle automatique pour que les tâches durables puissent ajouter et supprimer dynamiquement des nœuds Worker au cours de l’exécution de projet. Consultez Activer la mise à l’échelle automatique.
Utiliser un pool pour réduire le temps de démarrage du cluster
Les pools de calcul vous permettent de réserver des ressources de capacité de calcul à partir de votre fournisseur de cloud. Les pools sont bénéfiques pour diminuer le temps de démarrage du nouveau groupement de projets et garantir la disponibilité des ressources de capacité de calcul. Consultez Informations de référence sur la configuration de pool.
Utiliser des instances spot
Configurez des instances spot pour les charges de travail qui ont des exigences de latence lax pour optimiser les coûts. Consultez Instances spot.
Le calcul à usage général doit-il être utilisé pour les projets ?
Databricks recommande de ne pas utiliser de calcul à usage général pour les projets pour de nombreuses raisons, notamment les suivants :
- Azure Databricks facture le calcul à usage général à un tarif différent de celui de la capacité de calcul des projets.
- La capacité de calcul des projets se termine automatiquement à la fin de l'exécution du projet. Le calcul à usage général prend en charge l’arrêt automatique, qui est lié à l’inactivité plutôt qu’à la fin d’une exécution de projet.
- Le calcul à usage général est souvent partagé entre les équipes d’utilisateurs. Les projets planifiés par rapport au calcul à usage général ont souvent augmenté la latence en raison de la concurrence pour les ressources de capacité de calcul.
- De nombreuses recommandations visant à optimiser la configuration de la capacité de calcul des projets ne sont pas adaptées au type de requêtes ad hoc et de charges de travail interactives exécutées sur le calcul à usage général.
Vous trouverez ci-dessous des cas d’utilisation dans lesquels vous pourriez choisir d’utiliser le calcul à usage général pour les projets :
- Vous développez ou testez de nouveaux projets de manière itérative. Les temps de démarrage pour la capacité de calcul des projets peuvent rendre le développement itératif fastidieux. Le calcul à usage général vous permet d’appliquer des modifications et d’exécuter votre projet rapidement.
- Vous avez des projets de courte durée qui doivent être exécutés fréquemment ou selon une planification précise. Il n’existe pas de temps de démarrage associé au calcul à usage général en cours d’exécution. Tenez compte des coûts associés à la durée d’inactivité si vous utilisez ce modèle.
Le calcul serverless pour les projets est le substitut recommandé pour la plupart des types de tâches que vous pourriez envisager d’exécuter contre un calcul à usage général.