Partager via


Utilisez l’interpréteur de commandes Spark avec Databricks Connect pour Python

Remarque

Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.

Cet article explique comment utiliser Databricks Connect pour Python et l’interpréteur de commandes Spark. Databricks Connect vous permet de connecter des applications populaires à un calcul Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.

Remarque

Avant de commencer à utiliser Databricks Connect, vous devez configurer le client Databricks Connect.

L’interpréteur de commande Spark fonctionne uniquement avec l’authentification de type authentification par jetons d’accès personnels Azure Databricks.

Si vous voulez utiliser Databricks Connect avec l’interpréteur de commandes Spark et Python, suivez ces instructions.

  1. Pour démarrer l’interpréteur de commandes Spark et le connecter à votre cluster en cours d’exécution, exécutez l’une des commandes suivantes à partir de votre environnement virtuel Python activé :

    Si vous avez défini la variable d’environnement SPARK_REMOTE, exécutez la commande suivante :

    pyspark
    

    Si vous n’avez pas défini la variable d’environnement SPARK_REMOTE, exécutez plutôt la commande suivante :

    pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
    

    L’interpréteur de commandes Spark s’affiche, par exemple :

    Python 3.10 ...
    [Clang ...] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
         ____              __
        / __/__  ___ _____/ /__
       _\ \/ _ \/ _ `/ __/  '_/
      /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
         /_/
    
    Using Python version 3.10 ...
    Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
    SparkSession available as 'spark'.
    >>>
    

Exécutez à présent une commande PySpark simple, telle que spark.range(1,10).show(). S’il n’y a pas d’erreur, vous vous êtes connecté.

  1. Pour plus d’informations sur l’utilisation de l’interpréteur de commandes Spark avec Python pour exécuter les commandes sur votre calcul, consultez la section Analyse interactive avec l’interpréteur de commandes Spark.

    Utilisez la variable spark intégrée pour représenter SparkSession sur votre cluster en cours d’exécution, par exemple :

    >>> df = spark.read.table("samples.nyctaxi.trips")
    >>> df.show(5)
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    | 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
    | 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
    | 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
    | 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
    | 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    only showing top 5 rows
    

    Tout le code Python s'exécute localement, tandis que tout le code PySpark impliquant des opérations DataFrame s'exécute sur le cluster dans l'espace de travail Azure Databricks distant et les réponses d'exécution sont renvoyées à l'appelant local.

  2. Pour arrêter l’interpréteur de commandes Spark, appuyez sur Ctrl + d ou Ctrl + z, ou exécutez la commande quit() ou exit().