Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание.
В этой статье рассматривается Databricks Connect для Databricks Runtime версии 14.0 и выше.
Databricks Connect для Python поставляется с двоичным файлом pyspark, который представляет собой PySpark REPL (оболочка Spark), настроенный для использования Databricks Connect.
Запуск оболочки
Чтобы запустить оболочку Spark и подключить ее к работающему кластеру, выполните следующую команду из активированной виртуальной среды Python.
Примечание.
При запуске без дополнительных параметров оболочка выбирает учетные данные по умолчанию из среды (например, DATABRICKS_ переменные среды или DEFAULT профиль конфигурации) для подключения к кластеру Azure Databricks. Сведения о настройке подключения см. в разделе "Конфигурация вычислений" для Databricks Connect.
pyspark
Появится оболочка Spark, например:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
После запуска оболочки spark объект становится доступен для выполнения команд Apache Spark в кластере Databricks. Выполните простую команду PySpark, например spark.range(1,10).show(). Если ошибки отсутствуют, вы успешно подключились.
Используйте оболочку
Используйте встроенную spark переменную для представления SparkSession в работающем кластере, например:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Весь код Python выполняется локально, в то время как весь код PySpark с участием операций DataFrame выполняется в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.
Остановить оболочку
Чтобы остановить оболочку Spark, нажмите Ctrl + d или Ctrl + zвыполните команду или выполните командуquit().exit()