Utilisez l’interpréteur de commandes Spark avec Databricks Connect pour Python
Remarque
Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.
Cet article explique comment utiliser Databricks Connect pour Python et l’interpréteur de commandes Spark. Databricks Connect vous permet de connecter des applications populaires à un calcul Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.
Remarque
Avant de commencer à utiliser Databricks Connect, vous devez configurer le client Databricks Connect.
L’interpréteur de commande Spark fonctionne uniquement avec l’authentification de type authentification par jetons d’accès personnels Azure Databricks.
Si vous voulez utiliser Databricks Connect avec l’interpréteur de commandes Spark et Python, suivez ces instructions.
Pour démarrer l’interpréteur de commandes Spark et le connecter à votre cluster en cours d’exécution, exécutez l’une des commandes suivantes à partir de votre environnement virtuel Python activé :
Si vous avez défini la variable d’environnement
SPARK_REMOTE
, exécutez la commande suivante :pyspark
Si vous n’avez pas défini la variable d’environnement
SPARK_REMOTE
, exécutez plutôt la commande suivante :pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
L’interpréteur de commandes Spark s’affiche, par exemple :
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Exécutez à présent une commande PySpark simple, telle que spark.range(1,10).show()
. S’il n’y a pas d’erreur, vous vous êtes connecté.
Pour plus d’informations sur l’utilisation de l’interpréteur de commandes Spark avec Python pour exécuter les commandes sur votre calcul, consultez la section Analyse interactive avec l’interpréteur de commandes Spark.
Utilisez la variable
spark
intégrée pour représenterSparkSession
sur votre cluster en cours d’exécution, par exemple :>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
Tout le code Python s'exécute localement, tandis que tout le code PySpark impliquant des opérations DataFrame s'exécute sur le cluster dans l'espace de travail Azure Databricks distant et les réponses d'exécution sont renvoyées à l'appelant local.
Pour arrêter l’interpréteur de commandes Spark, appuyez sur
Ctrl + d
ouCtrl + z
, ou exécutez la commandequit()
ouexit()
.