Dela via


Använda Spark-gränssnittet med Databricks Connect för Python

Kommentar

Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.

Den här artikeln beskriver hur du använder Databricks Connect för Python och Spark-gränssnittet. Med Databricks Connect kan du ansluta populära program till Azure Databricks-beräkning. Se Vad är Databricks Connect?.

Kommentar

Innan du börjar använda Databricks Connect måste du konfigurera Databricks Connect-klienten.

Spark-gränssnittet fungerar endast med autentisering av personlig åtkomsttoken för Azure Databricks.

Följ dessa instruktioner om du vill använda Databricks Connect med Spark-gränssnittet och Python.

  1. Om du vill starta Spark-gränssnittet och ansluta det till ditt kluster som körs kör du något av följande kommandon från den aktiverade virtuella Python-miljön:

    Om du har angett SPARK_REMOTE miljövariabeln kör du följande kommando:

    pyspark
    

    Om du inte har angett SPARK_REMOTE miljövariabeln kör du följande kommando i stället:

    pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
    

    Spark-gränssnittet visas till exempel:

    Python 3.10 ...
    [Clang ...] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
         ____              __
        / __/__  ___ _____/ /__
       _\ \/ _ \/ _ `/ __/  '_/
      /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
         /_/
    
    Using Python version 3.10 ...
    Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
    SparkSession available as 'spark'.
    >>>
    

Kör nu ett enkelt PySpark-kommando, till exempel spark.range(1,10).show(). Om det inte finns några fel har du anslutit.

  1. Se Interaktiv analys med Spark Shell för information om hur du använder Spark-gränssnittet med Python för att köra kommandon på din beräkning.

    Använd den inbyggda spark variabeln för att representera SparkSession på det kluster som körs, till exempel:

    >>> df = spark.read.table("samples.nyctaxi.trips")
    >>> df.show(5)
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    | 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
    | 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
    | 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
    | 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
    | 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    only showing top 5 rows
    

    All Python-kod körs lokalt, medan all PySpark-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.

  2. Om du vill stoppa Spark-gränssnittet trycker Ctrl + d du på eller Ctrl + z, eller kör kommandot quit() eller exit().