Python용 Databricks 커넥트 Spark 셸 사용

아티클
03/01/2024

참고 항목

이 문서에서는 Databricks Runtime 13.0 이상용 Databricks 커넥트 대해 설명합니다.

이 문서에서는 Python 및 Spark 셸에 Databricks 커넥트 사용하는 방법을 설명합니다. Databricks 커넥트 사용하면 인기 있는 애플리케이션을 Azure Databricks 클러스터에 연결할 수 있습니다. Databricks 커넥트란?을 참조하세요.

참고 항목

Databricks 커넥트 사용하기 전에 Databricks 커넥트 클라이언트를 설정해야 합니다.

Spark 셸은 Azure Databricks 개인용 액세스 토큰 인증 인증에서만 작동합니다.

Spark 셸 및 Python에서 Databricks 커넥트 사용하려면 다음 지침을 따릅니다.

Spark 셸을 시작하고 실행 중인 클러스터에 연결하려면 활성화된 Python 가상 환경에서 다음 명령 중 하나를 실행합니다.

환경 변수를 SPARK_REMOTE 이전에 설정한 경우 다음 명령을 실행합니다.

pyspark

이전에 환경 변수를 SPARK_REMOTE 설정하지 않은 경우 대신 다음 명령을 실행합니다.

pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"

예를 들어 Spark 셸이 나타납니다.

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
     ____              __
    / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
  /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
     /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Python에서 Spark 셸을 사용하여 클러스터에서 명령을 실행하는 방법에 대한 자세한 내용은 Spark 셸 을 사용한 대화형 분석을 참조하세요.

기본 제공 spark 변수를 사용하여 실행 중인 클러스터를 SparkSession 나타냅니다. 예를 들면 다음과 같습니다.

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

모든 Python 코드는 로컬로 실행되지만 DataFrame 작업과 관련된 모든 PySpark 코드는 원격 Azure Databricks 작업 영역의 클러스터에서 실행되고 실행 응답은 로컬 호출자에게 다시 전송됩니다.

Spark 셸을 중지하려면 명령을 누르 Ctrl + d 거나 Ctrl + z실행하거나 명령을 quit() 실행합니다 exit().

다음을 통해 공유

Python용 Databricks 커넥트 Spark 셸 사용

추가 리소스