Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Tento článek popisuje Databricks Connect pro Databricks Runtime 14.0 a vyšší.
Databricks Connect pro Python se dodává s binárním souborem pyspark , který je PySpark REPL (prostředí Sparku) nakonfigurované tak, aby používalo Databricks Connect.
Spuštění prostředí
Pokud chcete spustit prostředí Spark a připojit ho ke spuštěném clusteru, spusťte z aktivovaného virtuálního prostředí Pythonu následující příkaz.
Poznámka:
Když začnete bez dalších parametrů, prostředí převezme výchozí přihlašovací údaje z prostředí (například DATABRICKS_ proměnné prostředí nebo DEFAULT konfigurační profil) pro připojení ke clusteru Azure Databricks. Informace o konfiguraci připojení najdete v tématu Konfigurace výpočetních prostředků pro Databricks Connect.
pyspark
Zobrazí se prostředí Spark, například:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Po spuštění prostředí shellu je objekt k dispozici pro spouštění příkazů Apache Spark na clusteru Databricks. Spusťte jednoduchý příkaz PySpark, například spark.range(1,10).show(). Pokud nedošlo k žádným chybám, úspěšně jste se připojili.
Použijte shell
Informace o tom, jak pomocí prostředí Spark Shell s Pythonem spouštět příkazy na výpočetních prostředcích, najdete v interaktivní analýze v prostředí Spark Shell.
Pomocí předdefinované spark proměnné můžete znázorňovat spuštěný SparkSession cluster, například:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Veškerý kód Pythonu běží místně, zatímco veškerý kód PySpark zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět do místního volajícího.
Zastavení shellu
Pokud chcete prostředí Spark zastavit, stiskněte Ctrl + d nebo Ctrl + znebo spusťte příkaz quit() nebo exit().