Configuration du cluster pour Databricks Connect
Remarque
Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.
Cet article répertorie les paramètres de configuration du calcul Azure Databricks qui sont requis pour que Databricks Connect puisse s’y connecter. Ces informations s’appliquent à la version Python et Scala de Databricks Connect, sauf indication contraire.
Databricks Connect vous permet de connecter des IDE populaires tels que Visual Studio Code, PyCharm, RStudio Desktop et IntelliJ IDEA ainsi que des serveurs de notebooks et d’autres applications personnalisées aux clusters Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.
Spécifications
- Un compte et un espace de travail Azure Databricks sur lesquels Unity Catalog est activé. Consultez les pages Configurer et gérer Unity Catalog et Activer un espace de travail pour Unity Catalog.
- Un cluster Azure Databricks sur lequel Databricks Runtime 13.3 LTS ou une version ultérieure est installé.
- La version Databricks Runtime de votre cluster doit être égale ou ultérieure à la version du package Databricks Connect. Databricks vous recommande d’utiliser le package le plus récent de Databricks Connect qui correspond à la version de Databricks Runtime. Si vous souhaitez utiliser les fonctionnalités disponibles dans les versions ultérieures de Databricks Runtime, vous devez mettre à niveau le package Databricks Connect. Consultez les notes de publication de Databricks Connect pour obtenir la liste des versions disponibles de Databricks Connect. Pour obtenir les notes de publication de Databricks Runtime, consultez l’article Versions et compatibilité des notes de publication de Databricks Runtime.
- Le cluster doit utiliser un mode d’accès au cluster attribué ou partagé. Voir Modes d’accès aux fichiers.
Validation par programmation
Dans Databricks Connect 14.3 et versions ultérieures, DatabricksSession.builder
introduit validateSession
qui exécute une série de validations pour s’assurer que les exigences précédentes sont remplies.
Dans Databricks Connect pour Python, le fichier binaire databricks-connect
a une sous-commande test
qui effectue le même jeu de validations.
Cette commande doit être exécutée sur le terminal avec un environnement Python actif contenant Databricks Connect, mais également avec l’ensemble d’informations d’identification configuré par défaut. Pour configurer ces informations d’identification, consultez Configurer les propriétés de connexion.
databricks-connect test
La commande échoue avec un code de sortie non nul et un message approprié lorsque l’une des conditions requises n’est pas remplie.
Désactivation de Databricks Connect
Les services Databricks Connect (et Spark Connect sous-jacents) peuvent être désactivés sur n’importe quel cluster donné.
Pour désactiver le service Databricks Connect, définissez la configuration Spark suivante sur le cluster.
spark.databricks.service.server.enabled false
Étapes suivantes
- Pour Python, consultez Installer Databricks Connect pour Python.
- Pour R, consultez Databricks Connect pour R.
- Pour Scala, consultez Installer Databricks Connect pour Scala.