Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Remarque
Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures.
Cet article explique comment installer Databricks Connect pour Python. Consultez Présentation de Databricks Partner Connect. Pour la version Scala de cet article, consultez Installer Databricks Connect pour Scala.
Spécifications
Pour installer Databricks Connect pour Python, les conditions suivantes doivent être remplies :
Si vous vous connectez au calcul serverless, votre espace de travail doit répondre aux exigences du calcul serverless.
Remarque
Le calcul serverless est pris en charge dans Databricks Connect versions 15.1 et ultérieures. En outre, les versions de Databricks Connect au niveau de la version de Databricks Runtime sur serverless ou antérieures à celle-ci sont entièrement compatibles. Consultez Notes de publication. Pour vérifier si la version de Databricks Connect est compatible avec le calcul serverless, consultez Valider la connexion à Databricks.
Si vous vous connectez à un cluster, votre cluster cible doit répondre aux exigences de configuration du cluster, ce qui inclut les exigences relatives à la version de Databricks Runtime.
Python 3 doit être installé sur votre machine de développement, et la version mineure de Python installée sur votre machine de développement doit répondre aux exigences de version du tableau ci-dessous.
Si vous utilisez des fonctions définies par l’utilisateur (UDF), la version mineure locale de Python doit correspondre à la version mineure de Python de la version Databricks Runtime du cluster ou du calcul serverless. Pour rechercher la version mineure de Python de la version Databricks Runtime de votre cluster, reportez-vous à la section environnement système des notes de publication databricks Runtime pour cette version. Consultez Notes de mise à jour des versions Databricks Runtime et compatibilité et Notes de publication du calcul serverless.
Matrice de support de version
Le tableau suivant présente les versions compatibles de Databricks Connect et Python. Les numéros de version Databricks Connect correspondent aux numéros de version databricks Runtime.
Pour obtenir la prise en charge des fonctions UDF, consultez l’environnement de base Python.
Type de capacité de calcul | Version de Databricks Connect | Version python compatible |
---|---|---|
Sans serveur | 16.1 à 16.4 | 3,12 |
Sans serveur | 15.4.10 à moins de 16.0 | 3.11 |
Groupe | 16.1 et versions ultérieures | 3,12 |
Groupe | 15.4 LTS | 3.11 |
Groupe | De 13.3 LTS à 14.3 LTS | 3.10 |
Activer un environnement virtuel Python
Databricks recommande vivement d’avoir un environnement virtuel Python activé pour chaque projet de code Python que vous utilisez avec Databricks Connect. Les environnements virtuels Python garantissent que vous utilisez les bonnes versions de Python et Databricks Connect ensemble. Pour plus d’informations sur ces outils et sur la façon de les activer, consultez venv ou Poetry.
Installer le client Databricks Connect
Cette section explique comment installer le client Databricks Connect avec venv ou Poetry.
Remarque
Si l’extension Databricks pour Visual Studio Code est déjà installée, vous pouvez installer Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures à l’aide de l’extension. Consultez Déboguer le code à l’aide de Databricks Connect pour l’extension Databricks pour Visual Studio Code.
Installer le client Databricks Connect avec venv
Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande
uninstall
. Cela est nécessaire car le packagedatabricks-connect
est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commandeshow
.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande
install
. Utilisez l’option--upgrade
pour mettre à niveau toute installation de client existante vers la version spécifiée.pip3 install --upgrade "databricks-connect==16.4.*" # Or X.Y.* to match your cluster version.
Remarque
Databricks vous recommande d’ajouter la notation « point-astérisque » pour spécifier
databricks-connect==X.Y.*
au lieu dedatabricks-connect=X.Y
et vous assurer que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.
Installer le client Databricks Connect avec Poetry
Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande
remove
. Cela est nécessaire car le packagedatabricks-connect
est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commandeshow
.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande
add
.poetry add databricks-connect@~16.4 # Or X.Y to match your cluster version.
Remarque
Databricks vous recommande d’utiliser la notation « arobase-tilde » pour spécifier
databricks-connect@~16.4
à la place dedatabricks-connect==16.4
, afin de vérifier que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.
Étapes suivantes
Après avoir installé Databricks Connect, vous devez configurer une connexion à Databricks. Consultez Configuration de calcul pour Databricks Connect.