Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Feljegyzés
Ez a cikk a Databricks Connect for Databricks Runtime 14.0-s vagy újabb verzióját ismerteti.
A Databricks Connect for Python egy pyspark bináris fájlt szállít, amely egy PySpark REPL (Spark shell), és úgy van konfigurálva, hogy használja a Databricks Connectet.
A parancshéj indítása
A Spark parancssor elindításához és annak csatlakoztatásához a futó klaszterhez, futtassa az alábbi parancsot az aktivált Python virtuális környezetből.
Feljegyzés
Amikor további paraméterek nélkül indul, a parancssor felveszi az alapértelmezett hitelesítő adatokat a környezetből (például a DATABRICKS_ környezeti változókból vagy a DEFAULT konfigurációs profilból) az Azure Databricks-fürthöz csatlakozáshoz. A kapcsolat konfigurálásával kapcsolatos információkért lásd a Databricks Connect számítási konfigurációját.
pyspark
Megjelenik a Spark-rendszerhéj, például:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Amint a rendszerhéj elindul, az spark objektum elérhető az Apache Spark-parancsok futtatásához a Databricks-fürtön. Futtasson egy egyszerű PySpark-parancsot, például spark.range(1,10).show(). Ha nincsenek hibák, sikeresen csatlakozott.
Shell használata
A Spark Shell interaktív elemzésében megtudhatja, hogyan futtathat parancsokat a Spark-rendszerhéj a Pythonnal a számításon.
A beépített spark változóval jelölheti a SparkSession futó fürtön lévő változót, például:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Az összes Python-kód helyileg fut, míg a DataFrame-műveleteket tartalmazó PySpark-kód a távoli Azure Databricks-munkaterület fürtjén fut, és a futtatási válaszokat a rendszer visszaküldi a helyi hívónak.
A héj leállítása
A Spark-rendszerhéj leállításához nyomja Ctrl + d le vagy Ctrl + zfuttassa a parancsot vagy quit()a parancsotexit().