Použití prostředí Spark s Databricks Connect pro Python
Poznámka:
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat Databricks Connect pro Python a prostředí Spark. Databricks Connect umožňuje připojit oblíbené aplikace k výpočetním prostředkům Azure Databricks. Podívejte se, co je Databricks Connect?
Poznámka:
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Prostředí Spark funguje pouze s ověřováním tokenů pat azure Databricks.
Pokud chcete používat Databricks Connect s prostředím Spark a Pythonem, postupujte podle těchto pokynů.
Pokud chcete spustit prostředí Spark a připojit ho ke spuštěném clusteru, spusťte jeden z následujících příkazů z aktivovaného virtuálního prostředí Pythonu:
Pokud jste nastavili proměnnou
SPARK_REMOTE
prostředí, spusťte následující příkaz:pyspark
Pokud jste nenastavili proměnnou
SPARK_REMOTE
prostředí, spusťte místo toho následující příkaz:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
Zobrazí se prostředí Spark, například:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Nyní spusťte jednoduchý příkaz PySpark, například spark.range(1,10).show()
. Pokud nedošlo k žádným chybám, úspěšně jste se připojili.
Informace o tom, jak pomocí prostředí Spark Shell s Pythonem spouštět příkazy na výpočetních prostředcích, najdete v interaktivní analýze v prostředí Spark Shell.
Pomocí předdefinované
spark
proměnné můžete znázorňovat spuštěnýSparkSession
cluster, například:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
Veškerý kód Pythonu běží místně, zatímco veškerý kód PySpark zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět do místního volajícího.
Pokud chcete prostředí Spark zastavit, stiskněte
Ctrl + d
neboCtrl + z
nebo spusťte příkazquit()
neboexit()
.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro