Python용 Databricks 커넥트 고급 사용

아티클
05/18/2024

참고 항목

이 문서에서는 Databricks Runtime 14.0 이상에 대한 Databricks 커넥트 대해 설명합니다.

이 문서에서는 Databricks 커넥트 기본 설정을 넘어서는 항목에 대해 설명합니다.

로깅 및 디버그 로그

Python용 Databricks 커넥트 표준 Python 로깅을 사용하여 로그를 생성합니다.

로그는 표준 오류 스트림(stderr)으로 내보내지고 기본적으로 WARN 수준의 로그만 내보내집니다.

환경 변수 SPARK_CONNECT_LOG_LEVEL=debug 를 설정하면 이 기본값이 수정되고 모든 로그 메시지가 수준 이상에서 DEBUG 출력됩니다.

Pyspark 셸

Python용 Databricks 커넥트 Databricks 커넥트 사용하도록 구성된 PySpark REPL인 이진 파일과 함께 pyspark 제공합니다. REPL은 다음을 실행하여 시작할 수 있습니다.

pyspark

추가 매개 변수 없이 시작하면 환경(예 DATABRICKS_ : 환경 변수 또는 DEFAULT 구성 프로필)에서 기본 자격 증명을 선택하여 Azure Databricks 클러스터에 연결합니다.

REPL이 시작되면 Databricks 클러스터에서 spark Apache Spark 명령을 실행하도록 개체를 구성할 수 있습니다.

>>> spark.range(3).show()
+---+
| id|
+---+
|  0|
|  1|
|  2|
+---+

SPARK 연결 연결 문자열 매개 변수를 구성하여 다른 원격에 연결하도록 --remote REPL을 구성할 수 있습니다.

pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"

추가 HTTP 헤더

Databricks 커넥트 HTTP/2를 통해 gRPC를 통해 Databricks 클러스터와 통신합니다.

일부 고급 사용자는 클라이언트에서 들어오는 요청을 더 잘 제어하기 위해 클라이언트와 Azure Databricks 클러스터 간에 프록시 서비스를 설치하도록 선택할 수 있습니다.

프록시는 경우에 따라 HTTP 요청에 사용자 지정 헤더가 필요할 수 있습니다.

이 메서드를 headers() 사용하여 HTTP 요청에 사용자 지정 헤더를 추가할 수 있습니다.

spark = DatabricksSession.builder.header('x-custom-header', 'value').getOrCreate()

인증서

클러스터가 사용자 지정 SSL/TLS 인증서를 사용하여 Azure Databricks 작업 영역 FQDN(정규화된 do기본 이름)을 확인하는 경우 로컬 개발 머신에서 환경 변수 GRPC_DEFAULT_SSL_ROOTS_FILE_PATH 를 설정해야 합니다. 이 환경 변수는 클러스터에 설치된 인증서의 전체 경로로 설정해야 합니다.

예를 들어 다음과 같이 Python 코드에서 이 환경 변수를 설정합니다.

import os

os.environ["GRPC_DEFAULT_SSL_ROOTS_FILE_PATH"] = "/etc/ssl/certs/ca-bundle.crt"

환경 변수를 설정하는 다른 방법은 운영 체제 설명서를 참조하세요.

다음을 통해 공유

Python용 Databricks 커넥트 고급 사용

로깅 및 디버그 로그

Pyspark 셸

추가 HTTP 헤더

인증서

피드백

피드백

추가 리소스