Python용 Databricks 커넥트 고급 사용
참고 항목
이 문서에서는 Databricks Runtime 14.0 이상에 대한 Databricks 커넥트 대해 설명합니다.
이 문서에서는 Databricks 커넥트 기본 설정을 넘어서는 항목에 대해 설명합니다.
로깅 및 디버그 로그
Python용 Databricks 커넥트 표준 Python 로깅을 사용하여 로그를 생성합니다.
로그는 표준 오류 스트림(stderr)으로 내보내지고 기본적으로 WARN 수준의 로그만 내보내집니다.
환경 변수 SPARK_CONNECT_LOG_LEVEL=debug
를 설정하면 이 기본값이 수정되고 모든 로그 메시지가 수준 이상에서 DEBUG
출력됩니다.
Pyspark 셸
Python용 Databricks 커넥트 Databricks 커넥트 사용하도록 구성된 PySpark REPL인 이진 파일과 함께 pyspark
제공합니다. REPL은 다음을 실행하여 시작할 수 있습니다.
pyspark
추가 매개 변수 없이 시작하면 환경(예 DATABRICKS_
: 환경 변수 또는 DEFAULT
구성 프로필)에서 기본 자격 증명을 선택하여 Azure Databricks 클러스터에 연결합니다.
REPL이 시작되면 Databricks 클러스터에서 spark
Apache Spark 명령을 실행하도록 개체를 구성할 수 있습니다.
>>> spark.range(3).show()
+---+
| id|
+---+
| 0|
| 1|
| 2|
+---+
SPARK 연결 연결 문자열 매개 변수를 구성하여 다른 원격에 연결하도록 --remote
REPL을 구성할 수 있습니다.
pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
추가 HTTP 헤더
Databricks 커넥트 HTTP/2를 통해 gRPC를 통해 Databricks 클러스터와 통신합니다.
일부 고급 사용자는 클라이언트에서 들어오는 요청을 더 잘 제어하기 위해 클라이언트와 Azure Databricks 클러스터 간에 프록시 서비스를 설치하도록 선택할 수 있습니다.
프록시는 경우에 따라 HTTP 요청에 사용자 지정 헤더가 필요할 수 있습니다.
이 메서드를 headers()
사용하여 HTTP 요청에 사용자 지정 헤더를 추가할 수 있습니다.
spark = DatabricksSession.builder.header('x-custom-header', 'value').getOrCreate()
인증서
클러스터가 사용자 지정 SSL/TLS 인증서를 사용하여 Azure Databricks 작업 영역 FQDN(정규화된 do기본 이름)을 확인하는 경우 로컬 개발 머신에서 환경 변수 GRPC_DEFAULT_SSL_ROOTS_FILE_PATH
를 설정해야 합니다. 이 환경 변수는 클러스터에 설치된 인증서의 전체 경로로 설정해야 합니다.
예를 들어 다음과 같이 Python 코드에서 이 환경 변수를 설정합니다.
import os
os.environ["GRPC_DEFAULT_SSL_ROOTS_FILE_PATH"] = "/etc/ssl/certs/ca-bundle.crt"
환경 변수를 설정하는 다른 방법은 운영 체제 설명서를 참조하세요.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기