Använda Spark-gränssnittet med Databricks Connect för Python
Kommentar
Den här artikeln beskriver Databricks Connect för Databricks Runtime 13.3 LTS och senare.
Den här artikeln beskriver hur du använder Databricks Connect för Python och Spark-gränssnittet. Med Databricks Connect kan du ansluta populära program till Azure Databricks-beräkning. Se Vad är Databricks Connect?.
Kommentar
Innan du börjar använda Databricks Connect måste du konfigurera Databricks Connect-klienten.
Spark-gränssnittet fungerar endast med autentisering av personlig åtkomsttoken för Azure Databricks.
Följ dessa instruktioner om du vill använda Databricks Connect med Spark-gränssnittet och Python.
Om du vill starta Spark-gränssnittet och ansluta det till ditt kluster som körs kör du något av följande kommandon från den aktiverade virtuella Python-miljön:
Om du har angett
SPARK_REMOTE
miljövariabeln kör du följande kommando:pyspark
Om du inte har angett
SPARK_REMOTE
miljövariabeln kör du följande kommando i stället:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
Spark-gränssnittet visas till exempel:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Kör nu ett enkelt PySpark-kommando, till exempel spark.range(1,10).show()
. Om det inte finns några fel har du anslutit.
Se Interaktiv analys med Spark Shell för information om hur du använder Spark-gränssnittet med Python för att köra kommandon på din beräkning.
Använd den inbyggda
spark
variabeln för att representeraSparkSession
på det kluster som körs, till exempel:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
All Python-kod körs lokalt, medan all PySpark-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.
Om du vill stoppa Spark-gränssnittet trycker
Ctrl + d
du på ellerCtrl + z
, eller kör kommandotquit()
ellerexit()
.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för