델타 공유 열기 공유를 사용하여 공유된 데이터 읽기(받는 사람용)

아티클
08/21/2024

이 문서에서는 Delta Sharing 개방형 공유 프로토콜을 사용하여 공유된 데이터를 읽는 방법을 설명합니다. Databricks, Apache Spark, pandas, Power BI 및 Tableau를 사용하여 공유 데이터를 읽기 위한 지침이 포함되어 있습니다.

개방형 공유에서는 데이터 공급자가 팀 구성원과 공유한 자격 증명 파일을 사용하여 공유 데이터에 대한 안전한 읽기 권한을 얻습니다. 자격 증명이 유효하고 공급자가 데이터를 계속 공유하는 한 액세스가 유지됩니다. 공급자는 자격 증명 만료 및 회전을 관리합니다. 데이터에 대한 업데이트는 거의 실시간으로 사용할 수 있습니다. 공유 데이터의 복사본을 읽고 만들 수 있지만 원본 데이터는 수정할 수 없습니다.

참고 항목

Databricks-to-Databricks Delta Sharing를 사용하여 데이터를 공유한 경우 데이터에 액세스하는 데 자격 증명 파일이 필요하지 않으며 이 문서는 적용되지 않습니다. 자세한 내용은 Databricks-to-Databricks 델타 공유(받는 사람용)를 사용하여 공유된 데이터 읽기를 참조하세요.

다음 섹션에서는 Azure Databricks, Apache Spark, pandas 및 Power BI를 사용하여 자격 증명 파일을 사용하여 공유 데이터에 액세스하고 읽는 방법을 설명합니다. Delta Sharing 커넥터의 전체 목록과 커넥터 사용 방법에 대한 자세한 내용은 Delta Sharing 오픈 소스 설명서를 참조하세요. 공유 데이터에 액세스하는 데 문제가 발생하면 데이터 공급자에게 문의하세요.

참고 항목

파트너 통합은 별도의 언급이 없는 한 타사에서 제공하며, 해당 공급자의 제품 또는 서비스에 사용할 계정을 가지고 있어야 합니다. Databricks는 이 콘텐츠를 최신 상태로 유지하기 위해 최선을 다하지만 파트너 통합 페이지의 통합 또는 콘텐츠 정확도에 대해서는 표현하지 않습니다. 통합과 관련하여 적절한 공급자에게 문의하세요.

시작하기 전에

팀원은 데이터 공급자가 공유하는 자격 증명 파일을 다운로드해야 합니다. 열린 공유 모델에서 액세스 가져오기를 참조하세요.

보안 채널을 사용하여 해당 파일 또는 파일 위치를 사용자와 공유해야 합니다.

이 섹션에서는 개방형 공유 커넥터를 사용하여 Azure Databricks 작업 영역에서 Notebook으로 공유 데이터에 액세스하는 방법을 설명합니다. 팀원이 DBFS에 자격 증명 파일을 저장한 다음, 이 자격 증명 파일을 사용하여 데이터 공급자의 Azure Databricks 계정에 인증하고 데이터 공급자가 공유한 데이터를 읽습니다.

참고 항목

데이터 공급자가 Databricks-to-Databricks 공유를 사용하고 자격 증명 파일을 공유하지 않은 경우 Unity 카탈로그를 사용하여 데이터에 액세스해야 합니다. 자세한 내용은 Databricks-to-Databricks 델타 공유(받는 사람용)를 사용하여 공유된 데이터 읽기를 참조하세요.

이 예제에서는 독립적으로 실행할 수 있는 셀이 여러 개 있는 Notebook을 만듭니다. 대신 동일한 셀에 Notebook 명령을 추가하고 차례로 실행할 수 있습니다.

1단계: DBFS에 자격 증명 파일 저장(Python 지침)

이 단계에서는 팀의 사용자가 공유 데이터에 액세스할 수 있도록 Azure Databricks의 Python Notebook을 사용하여 자격 증명 파일을 저장합니다.

팀의 누군가가 이미 DBFS에 자격 증명 파일을 저장한 경우 다음 단계로 건너뜁니다.

텍스트 편집기에서 자격 증명 파일을 엽니다.
Azure Databricks 작업 영역에서 새로 만들기 > Notebook을 클릭합니다.
- 이름을 입력합니다.
- Notebook의 기본 언어를 Python으로 설정합니다.
- Notebook에 연결할 클러스터를 선택합니다.
- 만들기를 클릭합니다.
Notebook 편집기에서 Notebook이 열립니다.
Python 또는 Pandas를 사용하여 공유 데이터에 액세스하려면 델타 공유 Python 커넥터를 설치합니다. Notebook 편집기에서 다음 명령을 붙여넣습니다.
```
%sh pip install delta-sharing
```
셀을 실행합니다.

delta-sharing Python 라이브러리가 아직 설치되지 않은 경우 클러스터에 설치됩니다.
새 셀에 다음 명령을 붙여넣습니다. 이 명령은 자격 증명 파일의 내용을 DBFS의 폴더에 업로드합니다. 변수를 다음과 같이 바꿉니다.
- <dbfs-path>: 자격 증명 파일을 저장할 폴더의 경로입니다.
- <credential-file-contents>: 자격 증명 파일의 내용입니다. 파일의 경로가 아니라 파일의 복사된 내용입니다.
  
  자격 증명 파일에는 세 개의 필드(shareCredentialsVersion, endpoint, bearerToken)를 정의하는 JSON이 포함됩니다.
```
%scala
dbutils.fs.put("<dbfs-path>/config.share","""
<credential-file-contents>
""")
```
셀을 실행합니다.

자격 증명 파일이 업로드되면 이 셀을 삭제할 수 있습니다. 모든 작업 영역의 사용자는 DBFS에서 자격 증명 파일을 읽을 수 있으며, 자격 증명 파일은 모든 클러스터와 작업 영역에 있는 SQL 웨어하우스의 DBFS에서 사용할 수 있습니다. 셀을 삭제하려면 맨 오른쪽에 있는 셀 작업 메뉴에서 x를 클릭합니다.

2단계: Notebook을 사용하여 공유 테이블을 나열하고 읽기

이 단계에서는 공유의 테이블 또는 공유 테이블 및 파티션 세트를 나열하고 테이블을 쿼리합니다.

Python을 사용하여 공유 중인 테이블을 나열합니다.

새 셀에 다음 명령을 붙여넣습니다. <dbfs-path>를 1단계: DBFS에 자격 증명 파일 저장(Python 지침)에서 만든 경로로 바꿉니다.

코드가 실행되면 Python은 클러스터의 DBFS에서 자격 증명 파일을 읽습니다. /dbfs/ 경로의 DBFS에 저장된 데이터에 액세스합니다.
```
import delta_sharing

client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")

client.list_all_tables()
```
셀을 실행합니다.

결과는 각 테이블에 대한 메타데이터와 함께 테이블 배열입니다. 다음 출력에서는 두 가지 테이블을 보여 줍니다.
```
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
```
출력이 비어 있거나 예상되는 테이블이 없는 경우 데이터 공급자에게 문의하세요.
공유 테이블을 쿼리합니다.
- Scala 사용:
  
  새 셀에 다음 명령을 붙여넣습니다. 코드가 실행되면 DBFS에서 JVM을 통해 자격 증명 파일을 읽습니다.
  
  변수를 다음과 같이 바꿉니다.
  - <profile-path>: 자격 증명 파일의 DBFS 경로입니다. 예들 들어 /<dbfs-path>/config.share입니다.
  - <share-name>: 테이블의 share= 값입니다.
  - <schema-name>: 테이블의 schema= 값입니다.
  - <table-name>: 테이블의 name= 값입니다.
```
%scala
    spark.read.format("deltaSharing")
    .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
```
  셀을 실행합니다. 공유 테이블을 로드할 때마다 원본에 새 데이터가 표시됩니다.
- SQL 사용:
  
  SQL을 사용하여 데이터를 쿼리하려면 공유 테이블의 작업 영역에 로컬 테이블을 만든 다음, 로컬 테이블을 쿼리합니다. 공유 데이터는 로컬 테이블에 저장되거나 캐시되지 않습니다. 로컬 테이블을 쿼리할 때마다 공유 데이터의 현재 상태가 표시됩니다.
  
  새 셀에 다음 명령을 붙여넣습니다.
  
  변수를 다음과 같이 바꿉니다.
  - <local-table-name>: 로컬 테이블의 이름입니다.
  - <profile-path>: 자격 증명 파일의 위치입니다.
  - <share-name>: 테이블의 share= 값입니다.
  - <schema-name>: 테이블의 schema= 값입니다.
  - <table-name>: 테이블의 name= 값입니다.
```
%sql
DROP TABLE IF EXISTS table_name;

CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";

SELECT * FROM <local-table-name> LIMIT 10;
```
  명령을 실행하면 공유 데이터가 직접 쿼리됩니다. 테스트로 테이블이 쿼리되면 처음 10개의 결과가 반환됩니다.
출력이 비어 있거나 예상되는 데이터가 포함되지 않은 경우 데이터 공급자에게 문의하세요.

Apache Spark: 공유 데이터 읽기

Spark 3.x 이상을 사용하는 공유 데이터에 액세스하려면 다음 단계를 수행합니다.

다음 지침은 데이터 공급자가 공유한 자격 증명 파일에 사용자가 액세스할 수 있다는 전제 하에 작성되었습니다. 열린 공유 모델에서 액세스 가져오기를 참조하세요.

공유된 테이블 목록과 같은 공유 데이터와 관련된 메타데이터에 액세스하려면 다음을 수행합니다. 이 예제에서는 Python을 사용합니다.

Delta Sharing Python 커넥터를 설치합니다.
```
pip install delta-sharing
```
Apache Spark 커넥터를 설치합니다.

Spark를 사용하여 공유 테이블 나열

공유의 테이블을 나열합니다. 다음 예제에서는 <profile-path>를 자격 증명 파일의 위치로 바꿉니다.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

결과는 각 테이블에 대한 메타데이터와 함께 테이블 배열입니다. 다음 출력에서는 두 가지 테이블을 보여 줍니다.

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

출력이 비어 있거나 예상되는 테이블이 없는 경우 데이터 공급자에게 문의하세요.

Spark를 사용하여 공유 데이터에 액세스

다음 명령을 실행하고 아래 변수를 바꿉니다.

<profile-path>: 자격 증명 파일의 위치입니다.
<share-name>: 테이블의 share= 값입니다.
<schema-name>: 테이블의 schema= 값입니다.
<table-name>: 테이블의 name= 값입니다.
<version-as-of>: 선택 사항. 데이터를 로드할 테이블의 버전입니다. 데이터 공급자가 테이블의 기록을 공유하는 경우에만 작동합니다. delta-sharing-spark 0.5.0 이상이 필요합니다.
<timestamp-as-of>: 선택 사항. 지정된 타임스탬프 이전 또는 해당 버전에서 데이터를 로드합니다. 데이터 공급자가 테이블의 기록을 공유하는 경우에만 작동합니다. delta-sharing-spark 0.6.0 이상이 필요합니다.

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

다음 명령을 실행하고 아래 변수를 바꿉니다.

<profile-path>: 자격 증명 파일의 위치입니다.
<share-name>: 테이블의 share= 값입니다.
<schema-name>: 테이블의 schema= 값입니다.
<table-name>: 테이블의 name= 값입니다.
<version-as-of>: 선택 사항. 데이터를 로드할 테이블의 버전입니다. 데이터 공급자가 테이블의 기록을 공유하는 경우에만 작동합니다. delta-sharing-spark 0.5.0 이상이 필요합니다.
<timestamp-as-of>: 선택 사항. 지정된 타임스탬프 이전 또는 해당 버전에서 데이터를 로드합니다. 데이터 공급자가 테이블의 기록을 공유하는 경우에만 작동합니다. delta-sharing-spark 0.6.0 이상이 필요합니다.

spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

Spark를 사용하여 공유 변경 데이터 피드 액세스

테이블 기록이 공유되고 원본 테이블에서 CDF(변경 데이터 피드)가 사용하도록 설정된 경우 다음을 실행하여 변경 데이터 피드에 액세스하여 이러한 변수를 바꿀 수 있습니다. delta-sharing-spark 0.5.0 이상이 필요합니다.

하나만 시작 매개 변수를 제공해야 합니다.

<profile-path>: 자격 증명 파일의 위치입니다.
<share-name>: 테이블의 share= 값입니다.
<schema-name>: 테이블의 schema= 값입니다.
<table-name>: 테이블의 name= 값입니다.
<starting-version>: 선택 사항. 쿼리의 시작 버전(포함)입니다. Long으로 지정합니다.
<ending-version>: 선택 사항. 쿼리의 끝 버전(포함)입니다. 종료 버전이 제공되지 않으면 API는 최신 테이블 버전을 사용합니다.
<starting-timestamp>: 선택 사항. 쿼리의 시작 타임스탬프입니다. 이 타임스탬프보다 크거나 같은 버전으로 변환됩니다. yyyy-mm-dd hh:mm:ss[.fffffffff] 형식의 문자열로 지정합니다.
<ending-timestamp>: 선택 사항. 쿼리의 종료 타임스탬프입니다. 이 타임스탬프와 같거나 이전에 만든 버전으로 변환됩니다. yyyy-mm-dd hh:mm:ss[.fffffffff] 형식의 문자열로 지정합니다.

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

출력이 비어 있거나 예상되는 데이터가 포함되지 않은 경우 데이터 공급자에게 문의하세요.

Spark 구조적 스트리밍을 사용하여 공유 테이블에 액세스

테이블 기록이 공유되는 경우 공유 데이터 읽기를 스트리밍할 수 있습니다. delta-sharing-spark 0.6.0 이상이 필요합니다.

지원되는 옵션:

ignoreDeletes: 데이터를 삭제하는 트랜잭션을 무시합니다.
ignoreChanges: (파티션 내) 또는 OVERWRITE와 같은 데이터 변경 작업으로 DELETE UPDATEMERGE INTO인해 원본 테이블에서 파일을 다시 작성한 경우 업데이트를 다시 처리합니다. 변경되지 않은 행은 계속 내보낼 수 있습니다. 따라서 다운스트림 소비자는 중복 항목을 처리할 수 있어야 합니다. 삭제는 다운스트림으로 전파되지 않습니다. ignoreChanges는 ignoreDeletes를 포함합니다. 따라서 ignoreChanges을 사용하면 원본 테이블을 삭제하거나 업데이트해도 스트림이 중단되지 않습니다.
startingVersion: 시작할 공유 테이블 버전입니다. 이 버전(포함)부터 시작하는 모든 테이블 변경 내용은 스트리밍 원본에서 읽습니다.
startingTimestamp: 시작할 타임스탬프입니다. 타임스탬프(포함) 또는 그 이후에 커밋된 모든 테이블 변경 내용은 스트리밍 원본에서 읽습니다. 예: "2023-01-01 00:00:00.0"
maxFilesPerTrigger: 모든 마이크로 일괄 처리에서 고려할 새 파일의 수입니다.
maxBytesPerTrigger: 각 마이크로 일괄 처리에서 처리되는 데이터의 양입니다. 이 옵션은 "소프트 최대"를 설정합니다. 즉, 일괄 처리는 대략 이 규모의 데이터를 처리하며, 가장 작은 입력 단위가 이 제한보다 큰 경우 스트리밍 쿼리를 진행하기 위해 제한보다 더 많이 처리할 수 있습니다.
readChangeFeed: Stream에서 공유 테이블의 변경 데이터 피드를 읽습니다.

지원되지 않는 옵션:

Trigger.availableNow

구조적 스트리밍 쿼리 샘플

Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Azure Databricks의 스트리밍도 참조하세요.

삭제 벡터 또는 열 매핑을 사용하도록 설정된 테이블 읽기

Important

이 기능은 공개 미리 보기 상태입니다.

삭제 벡터는 공급자가 공유 델타 테이블에서 사용하도록 설정할 수 있는 스토리지 최적화 기능입니다. 삭제 벡터가란?을 참조하세요.

Azure Databricks는 델타 테이블에 대한 열 매핑도 지원합니다. Delta Lake 열 매핑을 사용하여 열 이름 바꾸기 및 삭제를 참조 하세요.

공급자가 삭제 벡터 또는 열 매핑을 사용하도록 설정된 테이블을 공유한 경우 3.1 이상을 실행하는 delta-sharing-spark 컴퓨팅을 사용하여 테이블을 읽을 수 있습니다. Databricks 클러스터를 사용하는 경우 Databricks Runtime 14.1 이상을 실행하는 클러스터를 사용하여 일괄 읽기를 수행할 수 있습니다. CDF 및 스트리밍 쿼리에는 Databricks Runtime 14.2 이상이 필요합니다.

일괄 처리 쿼리는 공유 테이블의 테이블 기능에 따라 자동으로 확인할 responseFormat 수 있으므로 있는 그대로 수행할 수 있습니다.

CDF(변경 데이터 피드)를 읽거나 삭제 벡터 또는 열 매핑을 사용하도록 설정된 공유 테이블에서 스트리밍 쿼리를 수행하려면 추가 옵션을 responseFormat=delta설정해야 합니다.

다음 예제에서는 일괄 처리, CDF 및 스트리밍 쿼리를 보여 줍니다.

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Pandas: 공유 데이터 읽기

Pandas 0.25.3 이상의 공유 데이터에 액세스하려면 다음 단계를 수행합니다.

공유된 테이블 목록과 같은 공유 데이터와 관련된 메타데이터에 액세스하려면 델타 공유 Python 커넥터를 설치해야 합니다.

pip install delta-sharing

pandas를 사용하여 공유 테이블 나열

공유의 테이블을 나열하려면 다음 명령을 실행하고 <profile-path>/config.share를 자격 증명 파일의 위치로 바꿉니다.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

출력이 비어 있거나 예상되는 테이블이 없는 경우 데이터 공급자에게 문의하세요.

pandas를 사용하여 공유 데이터에 액세스

Python을 사용하여 pandas의 공유 데이터에 액세스하려면 다음 명령을 실행하고 변수를 아래와 같이 바꿉니다.

<profile-path>: 자격 증명 파일의 위치입니다.
<share-name>: 테이블의 share= 값입니다.
<schema-name>: 테이블의 schema= 값입니다.
<table-name>: 테이블의 name= 값입니다.

import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

pandas를 사용하여 공유 변경 데이터 피드에 액세스

Python을 사용하여 pandas의 공유 테이블에 대한 변경 데이터 피드에 액세스하려면 다음 명령을 실행하고 변수를 아래와 같이 바꿉니다. 데이터 공급자가 테이블의 변경 데이터 피드를 공유했는지 여부에 따라 변경 데이터 피드를 사용하지 못할 수 있습니다.

<starting-version>: 선택 사항. 쿼리의 시작 버전(포함)입니다.
<ending-version>: 선택 사항. 쿼리의 끝 버전(포함)입니다.
<starting-timestamp>: 선택 사항. 쿼리의 시작 타임스탬프입니다. 이 타임스탬프보다 크거나 같은 버전으로 변환됩니다.
<ending-timestamp>: 선택 사항. 쿼리의 종료 타임스탬프입니다. 이 타임스탬프와 같거나 이전에 만든 버전으로 변환됩니다.

import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

출력이 비어 있거나 예상되는 데이터가 포함되지 않은 경우 데이터 공급자에게 문의하세요.

Power BI: 공유 데이터 읽기

Power BI Delta Sharing 커넥터를 사용하면 Delta Sharing 개방형 프로토콜을 통해 공유된 데이터 세트를 검색, 분석 및 시각화할 수 있습니다.

요구 사항

Power BI Desktop 2.99.621.0 이상.
데이터 공급자가 공유한 자격 증명 파일에 액세스합니다. 열린 공유 모델에서 액세스 가져오기를 참조하세요.

Databricks에 연결

Delta Sharing 커넥터를 사용하여 Azure Databricks에 연결하려면 다음을 수행합니다.

텍스트 편집기에서 공유 자격 증명 파일을 열고 엔드포인트 URL 및 토큰을 검색합니다.
Power BI Desktop을 실행합니다.
데이터 가져오기 메뉴에서 델타 공유를 검색합니다.
커넥터를 선택하고 연결을 클릭합니다.
자격 증명 파일에서 델타 공유 서버 URL 필드에 복사한 엔드포인트 URL을 입력합니다.
필요에 따라 고급 옵션 탭에서 다운로드할 수 있는 최대 행 수에 대한 행 제한을 설정합니다. 기본적으로 백만 개의 행으로 설정됩니다.
확인을 클릭합니다.
인증의 경우 자격 증명 파일에서 검색한 토큰을 전달자 토큰으로 복사합니다.
연결을 클릭합니다.

Power BI Delta Sharing 커넥터에는 다음과 같은 제한 사항이 있습니다.

커넥터가 로드하는 데이터는 머신의 메모리에 적합해야 합니다. 이 요구 사항을 관리하기 위해 커넥터는 가져온 행 수를 Power BI Desktop의 고급 옵션 탭에서 설정한 행 제한 으로 제한합니다.

Tableau: 공유 데이터 읽기

Tableau Delta Sharing 커넥터를 사용하면 델타 공유 열기 프로토콜을 통해 공유되는 데이터 세트를 검색, 분석 및 시각화할 수 있습니다.

요구 사항

Tableau Desktop 및 Tableau Server 2024.1 이상
데이터 공급자가 공유한 자격 증명 파일에 액세스합니다. 열린 공유 모델에서 액세스 가져오기를 참조하세요.

Azure Databricks에 연결

Delta Sharing 커넥터를 사용하여 Azure Databricks에 연결하려면 다음을 수행합니다.

Tableau Exchange로 이동하여 지침에 따라 델타 공유 커넥터를 다운로드하고 적절한 데스크톱 폴더에 배치합니다.
Tableau Desktop을 엽니다.
커넥터 페이지에서 "Databricks별 델타 공유"를 검색합니다.
공유 파일 업로드를 선택하고 공급자가 공유한 자격 증명 파일을 선택합니다.
데이터 가져오기를 클릭합니다.
데이터 탐색기에서 테이블을 선택합니다.
필요에 따라 SQL 필터 또는 행 제한을 추가합니다.
테이블 데이터 가져오기를 클릭합니다.

Tableau Delta Sharing Connector에는 다음과 같은 제한 사항이 있습니다.

커넥터가 로드하는 데이터는 머신의 메모리에 적합해야 합니다. 이 요구 사항을 관리하기 위해 커넥터는 가져온 행 수를 Tableau에서 설정한 행 제한으로 제한합니다.
모든 열은 형식 String으로 반환됩니다.
SQL 필터는 델타 공유 서버가 predicateHint를 지원하는 경우에만 작동합니다.

새 자격 증명 요청

자격 증명 활성화 URL 또는 다운로드한 자격 증명이 손실, 손상 또는 손상되었거나 공급자가 새 자격 증명을 보내지 않고 만료되는 경우 공급자에게 문의하여 새 자격 증명을 요청합니다.

다음을 통해 공유

시작하기 전에

1단계: DBFS에 자격 증명 파일 저장(Python 지침)

2단계: Notebook을 사용하여 공유 테이블을 나열하고 읽기

Apache Spark: 공유 데이터 읽기

Spark를 사용하여 공유 테이블 나열

Spark를 사용하여 공유 데이터에 액세스

Python

Scala

Spark를 사용하여 공유 변경 데이터 피드 액세스

Python

Scala

Spark 구조적 스트리밍을 사용하여 공유 테이블에 액세스

구조적 스트리밍 쿼리 샘플

Scala

Python

삭제 벡터 또는 열 매핑을 사용하도록 설정된 테이블 읽기

Pandas: 공유 데이터 읽기

pandas를 사용하여 공유 테이블 나열

pandas를 사용하여 공유 데이터에 액세스

pandas를 사용하여 공유 변경 데이터 피드에 액세스

Power BI: 공유 데이터 읽기

요구 사항

Databricks에 연결

Tableau: 공유 데이터 읽기

요구 사항

Azure Databricks에 연결

새 자격 증명 요청

피드백

추가 리소스

다음을 통해 공유

시작하기 전에

Azure Databricks: 개방형 공유 커넥터를 사용하여 공유 데이터 읽기

1단계: DBFS에 자격 증명 파일 저장(Python 지침)

2단계: Notebook을 사용하여 공유 테이블을 나열하고 읽기

Apache Spark: 공유 데이터 읽기

Delta Sharing Python 및 Spark 커넥터 설치

Spark를 사용하여 공유 테이블 나열

Spark를 사용하여 공유 데이터에 액세스

Python

Scala

Spark를 사용하여 공유 변경 데이터 피드 액세스

Python

Scala

Spark 구조적 스트리밍을 사용하여 공유 테이블에 액세스

구조적 스트리밍 쿼리 샘플

Scala

Python

삭제 벡터 또는 열 매핑을 사용하도록 설정된 테이블 읽기

Pandas: 공유 데이터 읽기

Delta Sharing Python 커넥터 설치

pandas를 사용하여 공유 테이블 나열

pandas를 사용하여 공유 데이터에 액세스

pandas를 사용하여 공유 변경 데이터 피드에 액세스

Power BI: 공유 데이터 읽기

요구 사항

Databricks에 연결

Power BI Delta Sharing 커넥터의 제한 사항

Tableau: 공유 데이터 읽기

요구 사항

Azure Databricks에 연결

Tableau 델타 공유 커넥터의 제한 사항

새 자격 증명 요청

피드백

추가 리소스