Databricks Connect pour Python
Remarque
Cet article traite de Databricks Connect pour Databricks Runtime 13.0 et versions ultérieures.
Cet article montre comment démarrer rapidement avec Databricks Connect à l’aide de Python et PyCharm.
- Pour accéder à la version R de cet article, consultez Databricks Connect pour R.
- Pour accéder à la version Scala de cet article, consultez Databricks Connect pour Scala.
Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires tels que PyCharm, des serveurs notebook et d’autres applications personnalisées aux clusters Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.
Didacticiel
Pour ignorer ce tutoriel et utiliser un autre IDE à la place, consultez Étapes suivantes.
Spécifications
Pour suivre ce tutoriel, vous devez répondre aux exigences suivantes :
Votre cluster et votre espace de travail Azure Databricks cibles doivent répondre aux exigences de Configuration de cluster pour Databricks Connect.
Vous devez disposer de votre ID de cluster. Pour obtenir votre ID de cluster, dans votre espace de travail, cliquez sur Calcul dans la barre latérale, puis sur le nom de votre cluster. Dans la barre d’adresse de votre navigateur web, copiez la chaîne de caractères entre
clusters
etconfiguration
dans l’URL.PyCharm est installé. Ce tutoriel a été testé avec PyCharm Community Edition 2023.3.5. Si vous utilisez une version ou une édition différente de PyCharm, les instructions suivantes peuvent varier.
Python 3 est installé sur votre machine de développement et la version mineure de l’installation Python de votre client est la même que la version mineure de Python de votre cluster Azure Databricks. La table suivante indique la version de Python installée avec chaque version de Databricks Runtime.
Version de Databricks Runtime Version Python 15.0 ML,
15.03.11 13.0 ML – 14.3 ML,
13.0 – 14.33.10
Étape 1 : Configurer l’authentification Azure Databricks
Ce tutoriel utilise l’authentification U2M (utilisateur à machine) OAuth d’Azure Databricks et un profil de configuration Azure Databricks pour l’authentification auprès de votre espace de travail Azure Databricks. Pour utiliser un autre type d’authentification à la place, consultez Configurer les propriétés de connexion.
La configuration de l’authentification U2M OAuth nécessite l’interface CLI Databricks suivante :
Si elle n’est pas déjà installée, installez l’interface CLI Databricks de la manière suivante :
Linux, macOS
Utilisez Homebrew pour installer l’interface CLI Databricks en exécutant les deux commandes suivantes :
brew tap databricks/tap brew install databricks
Windows
Vous pouvez utiliser winget, Chocolatey ou WSL (Sous-système Windows pour Linux) pour installer l’interface CLI Databricks. Si vous ne pouvez pas utiliser
winget
Chocolatey ou WSL, vous devez ignorer cette procédure et utiliser l’invite de commande ou PowerShell pour installer l’interface CLI Databricks depuis la source à la place.Remarque
L’installation de l’interface CLI Databricks avec Chocolatey est Expérimentale.
Pour installer l’interface CLI Databricks via
winget
, exécutez les deux commandes suivantes, puis redémarrez votre invite de commandes :winget search databricks winget install Databricks.DatabricksCLI
Pour utiliser Chocolatey pour installer l’interface CLI Databricks, exécutez la commande suivante :
choco install databricks-cli
Pour utiliser WSL pour installer l’interface CLI Databricks :
Installez
curl
etzip
via WSL. Pour plus d'informations, consultez la documentation de votre système d'exploitation.Utilisez WSL pour installer l’interface CLI Databricks en exécutant la commande suivante :
curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
Vérifiez que l’interface CLI Databricks est installée en exécutant la commande suivante, qui affiche la version actuelle de l’interface CLI Databricks installée. Cette version doit être la version 0.205.0 ou ultérieure :
databricks -v
Remarque
Si vous exécutez
databricks
mais que vous obtenez une erreur telle quecommand not found: databricks
, ou si vous exécutezdatabricks -v
et qu’un numéro de version 0.18 ou inférieur est affiché, votre ordinateur ne trouve pas la version correcte de l’exécutable de l’interface CLI Databricks. Pour résoudre ce problème, consultez Vérifier l’installation de votre interface CLI.
Lancez l’authentification U2M OAuth de la manière qui suit :
Utilisez l’interface CLI Databricks pour lancer la gestion des jetons OAuth localement en exécutant la commande suivante pour chaque espace de travail cible.
Dans la commande suivante, remplacez
<workspace-url>
par votre URL d’espace de travail Azure Databricks, par exemplehttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
L’interface CLI Databricks vous invite à enregistrer les informations que vous avez entrées en tant que profil de configuration Azure Databricks. Appuyez sur
Enter
pour accepter le nom de profil suggéré, ou entrez le nom d’un profil nouveau ou existant. Tout profil existant portant le même nom est remplacé par les informations que vous avez entrées. Vous pouvez utiliser des profils pour changer rapidement de contexte d’authentification entre plusieurs espaces de travail.Pour obtenir la liste des profils existants, dans un autre terminal ou une autre invite de commandes, utilisez l’interface CLI Databricks pour exécuter la commande
databricks auth profiles
. Pour voir les paramètres existants d’un profil spécifique, exécutez la commandedatabricks auth env --profile <profile-name>
.Dans votre navigateur web, suivez les instructions à l’écran pour vous connecter à votre espace de travail Azure Databricks.
Dans la liste des clusters disponibles qui s’affiche sur votre terminal ou votre ligne de commandes, utilisez les flèches haut et bas pour sélectionner le cluster Azure Databricks cible dans votre espace de travail, puis appuyez sur
Enter
. Vous pouvez également taper n’importe quelle partie du nom d’affichage du cluster pour filtrer la liste des clusters disponibles.Pour voir la valeur du jeton OAuth actuel d’un profil et l’horodatage de l’expiration à venir du jeton, exécutez l’une des commandes suivantes :
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Si vous avez plusieurs profils présentant la même valeur pour
--host
, il peut être nécessaire de spécifier les options--host
et-p
ensemble pour permettre à l’interface CLI Databricks de trouver les informations du jeton OAuth correspondant.
Étape 2 : créer le projet
- Démarrez PyCharm.
- Dans le menu principal, cliquez sur Fichier > Nouveau projet.
- Dans la boîte de dialogue Nouveau projet, cliquez sur Pure Python.
- Pour Emplacement, cliquez sur l’icône de dossier et suivez les instructions à l’écran pour spécifier le chemin d’accès à votre nouveau projet Python.
- Laissez Créer un script de bienvenue main.py sélectionné.
- Pour le type d’interpréteur, cliquez sur Projet venv.
- Développez la section version de Python, puis utilisez l’icône de dossier ou la liste déroulante pour spécifier le chemin d’accès à l’interpréteur Python à partir des exigences précédentes.
- Cliquez sur Créer.
Étape 3 : Ajouter le package Databricks Connect
- Dans le menu main de PyCharm, cliquez sur Afficher les > packages Windows Python de l’outil>.
- Dans la zone de recherche, entrez
databricks-connect
. - Dans la liste référentiel PyPI, cliquez sur databricks-connect.
- Dans la liste déroulante la plus récente du volet de résultats, sélectionnez la version qui correspond à la version de Databricks Runtime de votre cluster. Par exemple, si Databricks Runtime 14.3 est installé sur votre cluster, sélectionnez 14.3.1.
- Cliquez sur Installer le package.
- Une fois le package installé, vous pouvez fermer la fenêtre Packages Python.
Étape 4 : Ajouter du code
Dans la fenêtre Outil Projet, cliquez avec le bouton droit de la souris sur le répertoire racine du projet et cliquez sur Nouveau> fichier Python.
Entrez
main.py
et double-cliquez sur Fichier Python.Entrez le code suivant dans le fichier, puis enregistrez le fichier, en fonction du nom de votre profil de configuration.
Si votre profil de configuration de l’étape 1 s’appelle
DEFAULT
, entrez le code suivant dans le fichier, puis enregistrez le fichier :from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Si votre profil de configuration de l’étape 1 ne s’appelle pas
DEFAULT
, entrez le code suivant dans le fichier à la place. Remplacez l’espace réservé<profile-name>
par le nom de votre profil de configuration de l’étape 1, puis enregistrez le fichier :from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Étape 5 : Exécuter le code
- Démarrer le cluster cible dans votre espace de travail Azure Databricks distant.
- Une fois le cluster démarré, dans le menu principal, cliquez sur Exécuter > Exécuter « main ».
- Dans la fenêtre Outil Exécution (Affichage > Fenêtres Outil > Exécution), sous l’onglet Exécuterprincipal du volet, les 5 premières lignes de la table
samples.nyctaxi.trips
s’affichent.
Étape 6 : déboguer le code
- Le cluster étant toujours en cours d’exécution, dans le code précédent, cliquez sur la gouttière à côté de
df.show(5)
pour définir un point d’arrêt. - Dans le menu principal, cliquez sur Exécuter > Déboguer « main ».
- Dans la fenêtre Outil Déboguer (Afficher> Fenêtre Outil > Déboguer), dans le volet Variables de l’onglet Débogueur, développez les nœuds df et spark variable pour parcourir des informations sur le code
df
et lesspark
variables. - Dans la barre latérale de la fenêtre Outil de débogage, cliquez sur l’icône flèche verte (Reprendre le programme).
- Dans le volet Console de l’onglet Débogueur, les 5 premières lignes de l’écran
samples.nyctaxi.trips
apparaissent.
Étapes suivantes
Pour en savoir plus sur Databricks Connect, consultez la sélection d’articles suivante :
Pour utiliser des types d’authentification Azure Databricks autres qu’un jeton d’accès personnel Azure Databricks, consultez Configurer les propriétés de connexion.
Pour utiliser d’autres environnements de développement intégrés, des serveurs de notebooks et l’interpréteur de commandes Spark, consultez ce qui suit :
Pour obtenir d’autres exemples simples de code, consultez Exemples de code pour Databricks Connect pour Python.
Pour obtenir des exemples de code plus complexes, consultez le référentiel d’exemples d’applications pour Databricks Connect sur GitHub, plus précisément :
Pour utiliser Databricks Utilities avec Databricks Connect, consultez Databricks Utilities avec Databricks Connect pour Python.
Pour effectuer une migration de Databricks Connect pour Databricks Runtime 12.2 LTS et versions antérieures vers Databricks Connect pour Databricks Runtime 13.0 et versions ultérieures, consultez Migrer vers Databricks Connect pour Python.
Consultez également les informations sur la résolution des problèmes et les limitations.
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour