Installer Databricks Connect pour Python

2025-06-30

Remarque

Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures.

Cet article explique comment installer Databricks Connect pour Python. Consultez Présentation de Databricks Partner Connect. Pour la version Scala de cet article, consultez Installer Databricks Connect pour Scala.

Spécifications

Pour installer Databricks Connect pour Python, les conditions suivantes doivent être remplies :

Si vous vous connectez au calcul serverless, votre espace de travail doit répondre aux exigences du calcul serverless.

Remarque

Le calcul serverless est pris en charge dans Databricks Connect versions 15.1 et ultérieures. En outre, les versions de Databricks Connect au niveau de la version de Databricks Runtime sur serverless ou antérieures à celle-ci sont entièrement compatibles. Consultez Notes de publication. Pour vérifier si la version de Databricks Connect est compatible avec le calcul serverless, consultez Valider la connexion à Databricks.
Si vous vous connectez à un cluster, votre cluster cible doit répondre aux exigences de configuration du cluster, ce qui inclut les exigences relatives à la version de Databricks Runtime.
Python 3 doit être installé sur votre machine de développement, et la version mineure de Python installée sur votre machine de développement doit répondre aux exigences de version du tableau ci-dessous.
Si vous utilisez des fonctions définies par l’utilisateur (UDF), la version mineure locale de Python doit correspondre à la version mineure de Python de la version Databricks Runtime du cluster ou du calcul serverless. Pour rechercher la version mineure de Python de la version Databricks Runtime de votre cluster, reportez-vous à la section environnement système des notes de publication databricks Runtime pour cette version. Consultez Notes de mise à jour des versions Databricks Runtime et compatibilité et Notes de publication du calcul serverless.

Matrice de support de version

Le tableau suivant présente les versions compatibles de Databricks Connect et Python. Les numéros de version Databricks Connect correspondent aux numéros de version databricks Runtime.

Pour obtenir la prise en charge des fonctions UDF, consultez l’environnement de base Python.

Type de capacité de calcul	Version de Databricks Connect	Version python compatible
Sans serveur	16.1 à 16.4	3,12
Sans serveur	15.4.10 à moins de 16.0	3.11
Groupe	16.1 et versions ultérieures	3,12
Groupe	15.4 LTS	3.11
Groupe	De 13.3 LTS à 14.3 LTS	3.10

Activer un environnement virtuel Python

Databricks recommande vivement d’avoir un environnement virtuel Python activé pour chaque projet de code Python que vous utilisez avec Databricks Connect. Les environnements virtuels Python garantissent que vous utilisez les bonnes versions de Python et Databricks Connect ensemble. Pour plus d’informations sur ces outils et sur la façon de les activer, consultez venv ou Poetry.

Installer le client Databricks Connect

Cette section explique comment installer le client Databricks Connect avec venv ou Poetry.

Remarque

Si l’extension Databricks pour Visual Studio Code est déjà installée, vous pouvez installer Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures à l’aide de l’extension. Consultez Déboguer le code à l’aide de Databricks Connect pour l’extension Databricks pour Visual Studio Code.

Installer le client Databricks Connect avec venv

Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande uninstall. Cela est nécessaire car le package databricks-connect est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commande show.
```
# Is PySpark already installed?
pip3 show pyspark

# Uninstall PySpark
pip3 uninstall pyspark
```
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande install. Utilisez l’option --upgrade pour mettre à niveau toute installation de client existante vers la version spécifiée.
```
pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
```
Remarque

Databricks vous recommande d’ajouter la notation « point-astérisque » pour spécifier databricks-connect==X.Y.* au lieu de databricks-connect=X.Y et vous assurer que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.

Installer le client Databricks Connect avec Poetry

Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande remove. Cela est nécessaire car le package databricks-connect est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commande show.
```
# Is PySpark already installed?
poetry show pyspark

# Uninstall PySpark
poetry remove pyspark
```
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande add.
```
poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
```
Remarque

Databricks vous recommande d’utiliser la notation « arobase-tilde » pour spécifier databricks-connect@~16.4 à la place de databricks-connect==16.4, afin de vérifier que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.

Étapes suivantes

Après avoir installé Databricks Connect, vous devez configurer une connexion à Databricks. Consultez Configuration de calcul pour Databricks Connect.