Použití prostředí Spark s Databricks Connect pro Python

Článek
07/16/2024

Poznámka:

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat Databricks Connect pro Python a prostředí Spark. Databricks Connect umožňuje připojit oblíbené aplikace k výpočetním prostředkům Azure Databricks. Podívejte se, co je Databricks Connect?

Poznámka:

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Prostředí Spark funguje pouze s ověřováním tokenů pat azure Databricks.

Pokud chcete používat Databricks Connect s prostředím Spark a Pythonem, postupujte podle těchto pokynů.

Pokud chcete spustit prostředí Spark a připojit ho ke spuštěném clusteru, spusťte jeden z následujících příkazů z aktivovaného virtuálního prostředí Pythonu:

Pokud jste nastavili proměnnou SPARK_REMOTE prostředí, spusťte následující příkaz:

pyspark

Pokud jste nenastavili proměnnou SPARK_REMOTE prostředí, spusťte místo toho následující příkaz:

pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"

Zobrazí se prostředí Spark, například:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
     ____              __
    / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
  /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
     /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Nyní spusťte jednoduchý příkaz PySpark, například spark.range(1,10).show(). Pokud nedošlo k žádným chybám, úspěšně jste se připojili.

Informace o tom, jak pomocí prostředí Spark Shell s Pythonem spouštět příkazy na výpočetních prostředcích, najdete v interaktivní analýze v prostředí Spark Shell.

Pomocí předdefinované spark proměnné můžete znázorňovat spuštěný SparkSession cluster, například:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Veškerý kód Pythonu běží místně, zatímco veškerý kód PySpark zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět do místního volajícího.

Pokud chcete prostředí Spark zastavit, stiskněte Ctrl + d nebo Ctrl + znebo spusťte příkaz quit() nebo exit().

Sdílet prostřednictvím

Použití prostředí Spark s Databricks Connect pro Python

Váš názor

Váš názor

Další materiály