Membaca data yang dibagikan menggunakan berbagi terbuka Berbagi Delta (untuk penerima)

Artikel
08/21/2024

Artikel ini menjelaskan cara membaca data yang telah dibagikan dengan Anda menggunakan protokol berbagi terbuka Berbagi Delta. Ini termasuk instruksi untuk membaca data bersama menggunakan Databricks, Apache Spark, pandas, Power BI, dan Tableau.

Dalam berbagi terbuka, Anda menggunakan file kredensial yang dibagikan dengan anggota tim Anda oleh penyedia data untuk mendapatkan akses baca yang aman ke data bersama. Akses bertahan selama kredensial valid dan penyedia terus berbagi data. Penyedia mengelola kedaluwarsa dan rotasi kredensial. Pembaruan data tersedia untuk Anda dalam waktu dekat. Anda dapat membaca dan membuat salinan data bersama, tetapi Anda tidak dapat mengubah data sumber.

Catatan

Jika data telah dibagikan dengan Anda menggunakan Berbagi Delta Databricks-ke-Databricks, Anda tidak memerlukan file kredensial untuk mengakses data, dan artikel ini tidak berlaku untuk Anda. Untuk petunjuknya, lihat Membaca data yang dibagikan menggunakan Berbagi Delta Databricks-ke-Databricks (untuk penerima).

Bagian berikut ini menjelaskan cara menggunakan Azure Databricks, Apache Spark, pandas, dan Power BI untuk mengakses dan membaca data bersama menggunakan file kredensial. Untuk daftar lengkap konektor Berbagi Delta dan informasi tentang cara menggunakannya, lihat dokumentasi sumber terbuka Berbagi Delta. Jika Anda mengalami masalah saat mengakses data yang dibagi, hubungi penyedia data.

Catatan

Integrasi mitra, kecuali dinyatakan lain, disediakan oleh pihak ketiga dan Anda harus memiliki akun dengan penyedia yang sesuai untuk penggunaan produk dan layanan mereka. Sementara Databricks melakukan yang terbaik untuk menjaga konten ini tetap kekinian, kami tidak membuat pernyataan mengenai integrasi atau keakuratan konten pada halaman integrasi mitra. Hubungi penyedia yang sesuai mengenai integrasi.

Sebelum Anda mulai

Anggota tim Anda harus mengunduh file kredensial yang dibagikan oleh penyedia data. Lihat Mendapatkan akses dalam model berbagi terbuka.

Mereka harus menggunakan saluran aman untuk berbagi file atau lokasi file tersebut dengan Anda.

Bagian ini menjelaskan cara menggunakan konektor berbagi terbuka untuk mengakses data bersama menggunakan buku catatan di ruang kerja Azure Databricks Anda. Anda atau anggota tim Anda lain menyimpan file kredensial di DBFS, lalu Anda menggunakannya untuk mengautentikasi ke akun Azure Databricks penyedia data dan membaca data yang dibagikan penyedia data dengan Anda.

Catatan

Jika penyedia data menggunakan berbagi Databricks-ke-Databricks dan tidak berbagi file kredensial dengan Anda, Anda harus mengakses data menggunakan Unity Catalog. Untuk petunjuknya, lihat Membaca data yang dibagikan menggunakan Berbagi Delta Databricks-ke-Databricks (untuk penerima).

Dalam contoh ini, Anda membuat buku catatan dengan beberapa sel yang bisa Anda jalankan secara independen. Anda dapat menambahkan perintah buku catatan ke sel yang sama dan menjalankannya secara berurutan.

Langkah 1: Simpan file kredensial di DBFS (instruksi Python)

Dalam langkah ini, Anda menggunakan buku catatan Python di Azure Databricks untuk menyimpan file kredensial sehingga pengguna di tim Anda dapat mengakses data bersama.

Lewati ke langkah berikutnya jika Anda atau seseorang di tim Anda telah menyimpan file kredensial di DBFS.

Di editor teks, buka file kredensial.
Di ruang kerja Azure Databricks Anda, klik Buku Catatan Baru>.
- Masukkan nama.
- Set bahasa default untuk buku catatan ke Python.
- Pilih kluster untuk dilampirkan ke buku catatan.
- Klik Buat.
Buku catatan terbuka di editor buku catatan.
Untuk menggunakan Python atau pandas untuk mengakses data bersama, pasang konektor Python delta-sharing. Di editor buku catatan, tempel perintah berikut:
```
%sh pip install delta-sharing
```
Jalankan sel.

Pustaka delta-sharing Python diinstal di kluster jika belum diinstal.
Di sel baru, tempelkan perintah berikut, yang mengunggah konten file kredensial ke folder di DBFS. Ganti variabel sebagai berikut:
- <dbfs-path>: jalur ke folder tempat Anda ingin menyimpan file info masuk
- <credential-file-contents>: isi file info masuk. Ini bukan jalur ke file, tetapi isi file yang disalin.
  
  File kredensial berisi JSON yang menentukan tiga bidang: shareCredentialsVersion, , endpointdan bearerToken.
```
%scala
dbutils.fs.put("<dbfs-path>/config.share","""
<credential-file-contents>
""")
```
Jalankan sel.

Setelah file info masuk diunggah, Anda dapat menghapus sel ini. Semua pengguna ruang kerja dapat membaca file kredensial dari DBFS, dan file kredensial tersedia di DBFS di semua kluster dan gudang SQL di ruang kerja Anda. Untuk menghapus sel, klik x di menu tindakan sel di ujung kanan.

Langkah 2: Gunakan buku catatan untuk mencantumkan dan membaca tabel bersama

Dalam langkah ini, Anda mencantumkan tabel dalam berbagi, atau sekumpulan tabel dan partisi bersama, dan Anda mengkueri tabel.

Menggunakan Python, cantumkan tabel di berbagi.

Di sel baru, tempelkan perintah berikut. Ganti <dbfs-path> dengan jalur yang dibuat di Langkah 1: Simpan file kredensial di DBFS (instruksi Python).

Saat kode berjalan, Python membaca file info masuk dari DBFS pada kluster. Akses data yang disimpan di DBFS di jalur /dbfs/.
```
import delta_sharing

client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")

client.list_all_tables()
```
Jalankan sel.

Hasilnya adalah array tabel, bersama dengan metadata untuk setiap tabel. Keluaran berikut menunjukkan dua tabel:
```
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
```
Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.
Mengkueri tabel bersama.
- Menggunakan Scala:
  
  Di sel baru, tempelkan perintah berikut. Ketika kode berjalan, file info masuk dibaca dari DBFS melalui JVM.
  
  Ganti variabel sebagai berikut:
  - <profile-path>: jalur DBFS dari file info masuk. Contohnya,/<dbfs-path>/config.share.
  - <share-name>: nilai share= untuk tabel.
  - <schema-name>: nilai schema= untuk tabel.
  - <table-name>: nilai name= untuk tabel.
```
%scala
    spark.read.format("deltaSharing")
    .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
```
  Jalankan sel. Setiap kali Memuat tabel yang dibagikan, Anda melihat data baru dari sumbernya.
- Menggunakan SQL:
  
  Untuk mengkueri data menggunakan SQL, Anda membuat tabel lokal di ruang kerja dari tabel bersama, lalu mengkueri tabel lokal. Data bersama tidak disimpan atau di-cache dalam tabel lokal. Setiap kali Anda menanyakan tabel lokal, Anda melihat status data yang dibagikan saat ini.
  
  Di sel baru, tempelkan perintah berikut.
  
  Ganti variabel sebagai berikut:
  - <local-table-name>: nama tabel lokal.
  - <profile-path>: lokasi file info masuk.
  - <share-name>: nilai share= untuk tabel.
  - <schema-name>: nilai schema= untuk tabel.
  - <table-name>: nilai name= untuk tabel.
```
%sql
DROP TABLE IF EXISTS table_name;

CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";

SELECT * FROM <local-table-name> LIMIT 10;
```
  Saat Anda menjalankan perintah, data yang dibagi akan dikueri secara langsung. Sebagai tes, tabel dikueri dan 10 hasil pertama dikembalikan.
Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.

Apache Spark: Membaca data bersama

Ikuti langkah-langkah ini untuk mengakses data bersama menggunakan Spark 3.x atau lebih tinggi.

Instruksi ini mengasumsikan bahwa Anda memiliki akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Mendapatkan akses dalam model berbagi terbuka.

Untuk mengakses metadata yang terkait dengan data bersama, seperti daftar tabel yang dibagikan dengan Anda, lakukan hal berikut. Contoh ini menggunakan Python.

Instal konektor Python berbagi delta:
```
pip install delta-sharing
```
Pasang Konektor Apache Spark.

Mencantumkan tabel bersama menggunakan Spark

Cantumkan tabel dalam bagian. Dalam contoh berikut, ganti <profile-path> dengan lokasi file info masuk.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Hasilnya adalah array tabel, bersama dengan metadata untuk setiap tabel. Keluaran berikut menunjukkan dua tabel:

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.

Mengakses data bersama menggunakan Spark

Jalankan yang berikut ini, ganti variabel ini:

<profile-path>: lokasi file info masuk.
<share-name>: nilai share= untuk tabel.
<schema-name>: nilai schema= untuk tabel.
<table-name>: nilai name= untuk tabel.
<version-as-of>: opsional. Versi tabel untuk memuat data. Hanya berfungsi jika penyedia data berbagi riwayat tabel. delta-sharing-spark Membutuhkan 0.5.0 atau lebih tinggi.
<timestamp-as-of>: opsional. Muat data pada versi sebelum atau pada tanda waktu yang diberikan. Hanya berfungsi jika penyedia data berbagi riwayat tabel. delta-sharing-spark Membutuhkan 0.6.0 atau lebih tinggi.

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

Jalankan yang berikut ini, ganti variabel ini:

<profile-path>: lokasi file info masuk.
<share-name>: nilai share= untuk tabel.
<schema-name>: nilai schema= untuk tabel.
<table-name>: nilai name= untuk tabel.
<version-as-of>: opsional. Versi tabel untuk memuat data. Hanya berfungsi jika penyedia data berbagi riwayat tabel. delta-sharing-spark Membutuhkan 0.5.0 atau lebih tinggi.
<timestamp-as-of>: opsional. Muat data pada versi sebelum atau pada tanda waktu yang diberikan. Hanya berfungsi jika penyedia data berbagi riwayat tabel. delta-sharing-spark Membutuhkan 0.6.0 atau lebih tinggi.

spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

Mengakses umpan data perubahan bersama menggunakan Spark

Jika riwayat tabel telah dibagikan dengan Anda dan mengubah umpan data (CDF) diaktifkan pada tabel sumber, Anda dapat mengakses umpan data perubahan dengan menjalankan yang berikut ini, menggantikan variabel ini. delta-sharing-spark Membutuhkan 0.5.0 atau lebih tinggi.

Satu dan hanya satu parameter mulai yang harus disediakan.

<profile-path>: lokasi file info masuk.
<share-name>: nilai share= untuk tabel.
<schema-name>: nilai schema= untuk tabel.
<table-name>: nilai name= untuk tabel.
<starting-version>: opsional. Versi awal kueri, inklusif. Tentukan sebagai Panjang.
<ending-version>: opsional. Versi akhir kueri, inklusif. Jika versi akhir tidak disediakan, API menggunakan versi tabel terbaru.
<starting-timestamp>: opsional. Tanda waktu awal kueri, ini dikonversi ke versi yang dibuat lebih besar atau sama dengan tanda waktu ini. Tentukan sebagai string dalam format yyyy-mm-dd hh:mm:ss[.fffffffff].
<ending-timestamp>: opsional. Tanda waktu akhir kueri, ini dikonversi ke versi yang dibuat sebelumnya atau sama dengan tanda waktu ini. Tentukan sebagai string dalam format yyyy-mm-dd hh:mm:ss[.fffffffff]

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.

Mengakses tabel bersama menggunakan Spark Structured Streaming

Jika riwayat tabel dibagikan dengan Anda, Anda dapat melakukan streaming membaca data bersama. delta-sharing-spark Membutuhkan 0.6.0 atau lebih tinggi.

Opsi yang didukung:

ignoreDeletes: Abaikan transaksi yang menghapus data.
ignoreChanges: Memproses ulang pembaruan jika file ditulis ulang dalam tabel sumber karena operasi perubahan data seperti UPDATE, , MERGE INTODELETE (dalam partisi), atau OVERWRITE. Baris yang tidak berubah masih dapat dipancarkan. Oleh karena itu konsumen hilir Anda harus dapat menangani duplikat. Penghapusan tidak disebarkan ke hilir. ignoreChanges subsum ignoreDeletes. Maka, jika Anda menggunakan ignoreChanges, aliran Anda tidak akan terganggu oleh penghapusan atau pembaruan ke tabel sumber.
startingVersion: Versi tabel bersama untuk memulai. Semua perubahan tabel mulai dari versi ini (inklusif) akan dibaca oleh sumber streaming.
startingTimestamp: Stempel waktu untuk memulai. Semua perubahan tabel yang diterapkan pada atau setelah stempel waktu (inklusif) akan dibaca oleh sumber streaming. Contoh: "2023-01-01 00:00:00.0".
maxFilesPerTrigger: Jumlah file baru yang akan dipertimbangkan dalam setiap mikro-batch.
maxBytesPerTrigger: Jumlah data yang diproses di setiap mikro-batch. Opsi ini menetapkan "maks lunak", yang berarti batch memproses kira-kira sejumlah data ini dan dapat memproses lebih dari batas untuk membuat kueri streaming bergerak maju, dalam kasus ketika unit input terkecil lebih besar dari batas ini.
readChangeFeed: Streaming membaca umpan data perubahan tabel bersama.

Opsi yang tidak didukung:

Trigger.availableNow

Sampel kueri Streaming Terstruktur

Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Lihat juga Streaming di Azure Databricks.

Membaca tabel dengan vektor penghapusan atau pemetaan kolom diaktifkan

Penting

Fitur ini ada di Pratinjau Publik.

Vektor penghapusan adalah fitur pengoptimalan penyimpanan yang dapat diaktifkan penyedia Anda pada tabel Delta bersama. Lihat Apa itu vektor penghapusan?.

Azure Databricks juga mendukung pemetaan kolom untuk tabel Delta. Lihat Mengganti nama dan meletakkan kolom dengan pemetaan kolom Delta Lake.

Jika penyedia Anda berbagi tabel dengan vektor penghapusan atau pemetaan kolom diaktifkan, Anda dapat membaca tabel menggunakan komputasi yang menjalankan delta-sharing-spark 3.1 atau lebih tinggi. Jika Anda menggunakan kluster Databricks, Anda dapat melakukan pembacaan batch menggunakan kluster yang menjalankan Databricks Runtime 14.1 atau lebih tinggi. KUERI CDF dan streaming memerlukan Databricks Runtime 14.2 atau lebih tinggi.

Anda dapat melakukan kueri batch apa adanya, karena kueri tersebut dapat diselesaikan responseFormat secara otomatis berdasarkan fitur tabel tabel bersama.

Untuk membaca umpan data perubahan (CDF) atau untuk melakukan kueri streaming pada tabel bersama dengan vektor penghapusan atau pemetaan kolom diaktifkan, Anda harus mengatur opsi responseFormat=deltatambahan .

Contoh berikut menunjukkan kueri batch, CDF, dan streaming:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Panda: Membaca data bersama

Ikuti langkah-langkah ini untuk mengakses data bersama di pandas 0.25.3 atau lebih tinggi.

Instruksi ini mengasumsikan bahwa Anda memiliki akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Mendapatkan akses dalam model berbagi terbuka.

Untuk mengakses metadata yang terkait dengan data bersama, seperti daftar tabel yang dibagikan dengan Anda, Anda harus menginstal konektor Python berbagi delta.

pip install delta-sharing

Mencantumkan tabel bersama menggunakan panda

Untuk mencantumkan tabel dalam berbagi, jalankan yang berikut ini, ganti <profile-path>/config.share dengan lokasi file kredensial.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.

Mengakses data bersama menggunakan panda

Untuk mengakses data bersama di panda menggunakan Python, jalankan hal berikut, ganti variabel sebagai berikut:

<profile-path>: lokasi file info masuk.
<share-name>: nilai share= untuk tabel.
<schema-name>: nilai schema= untuk tabel.
<table-name>: nilai name= untuk tabel.

import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

Mengakses umpan data perubahan bersama menggunakan panda

Untuk mengakses umpan data perubahan untuk tabel bersama di panda menggunakan Python, jalankan hal berikut, ganti variabel sebagai berikut. Umpan data perubahan mungkin tidak tersedia, tergantung pada apakah penyedia data berbagi umpan data perubahan untuk tabel atau tidak.

<starting-version>: opsional. Versi awal kueri, inklusif.
<ending-version>: opsional. Versi akhir kueri, inklusif.
<starting-timestamp>: opsional. Tanda waktu awal kueri. Ini dikonversi ke versi yang dibuat lebih besar atau sama dengan tanda waktu ini.
<ending-timestamp>: opsional. Tanda waktu akhir kueri. Ini dikonversi ke versi yang dibuat sebelumnya atau sama dengan tanda waktu ini.

import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.

Power BI: Membaca data bersama

Konektor Berbagi Delta Power BI memungkinkan Anda menemukan, menganalisis, dan memvisualisasikan himpunan data yang dibagikan dengan Anda melalui protokol terbuka Berbagi Delta.

Persyaratan

Power BI Desktop 2.99.621.0 atau di atasnya
Akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Mendapatkan akses dalam model berbagi terbuka.

Menyambung ke Databricks

Untuk menyambungkan ke Azure Databricks menggunakan konektor Berbagi Delta, lakukan hal berikut:

Buka file kredensial bersama dengan editor teks untuk mengambil URL titik akhir dan token.
Buka Power BI Desktop.
Pada menu Dapatkan Data, cari Delta Sharing.
Pilih konektor dan klik Sambungkan.
Masukkan URL titik akhir yang Anda salin dari file kredensial ke bidang URL Delta Sharing Server.
Secara opsional, di tab Opsi Lanjutan, tetapkan Batas Baris untuk jumlah baris maksimum yang dapat Anda unduh. Baris ini diatur ke 1 juta baris secara default.
Klik OK.
Untuk Autentikasi, salin token yang Anda ambil dari file kredensial ke Bearer Token.
Klik Sambungkan.

Konektor Berbagi Delta Power BI memiliki batasan berikut:

Data yang dimuat konektor harus sesuai dengan memori komputer Anda. Untuk mengelola persyaratan ini, konektor membatasi jumlah baris yang diimpor ke Batas Baris yang Anda tetapkan di bawah tab Opsi Tingkat Lanjut di Power BI Desktop.

Tableau: Membaca data bersama

Konektor Berbagi Tableau Delta memungkinkan Anda menemukan, menganalisis, dan memvisualisasikan himpunan data yang dibagikan dengan Anda melalui protokol terbuka Berbagi Delta.

Persyaratan

Tableau Desktop dan Tableau Server 2024.1 atau lebih tinggi
Akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Mendapatkan akses dalam model berbagi terbuka.

Menyambungkan ke Azure Databricks

Untuk menyambungkan ke Azure Databricks menggunakan konektor Berbagi Delta, lakukan hal berikut:

Buka Tableau Exchange, ikuti instruksi untuk mengunduh Konektor Berbagi Delta, dan letakkan di folder desktop yang sesuai.
Buka Tableau Desktop.
Pada halaman Konektor , cari "Berbagi Delta oleh Databricks".
Pilih Unggah file Berbagi, dan pilih file kredensial yang dibagikan oleh penyedia.
Klik Dapatkan Data.
Di Data Explorer, pilih tabel .
Secara opsional tambahkan filter SQL atau batas baris.
Klik Dapatkan Data Tabel.

Konektor Berbagi Tableau Delta memiliki batasan berikut:

Data yang dimuat konektor harus sesuai dengan memori komputer Anda. Untuk mengelola persyaratan ini, konektor membatasi jumlah baris yang diimpor ke batas baris yang Anda tetapkan di Tableau.
Semua kolom dikembalikan sebagai jenis String.
Filter SQL hanya berfungsi jika server Berbagi Delta Anda mendukung predicateHint.

Meminta kredensial baru

Jika URL aktivasi kredensial atau kredensial yang diunduh hilang, rusak, atau disusupi, atau kredensial Anda kedaluwarsa tanpa penyedia mengirimi Anda info masuk baru, hubungi penyedia Anda untuk meminta kredensial baru.

Bagikan melalui

Sebelum Anda mulai

Langkah 1: Simpan file kredensial di DBFS (instruksi Python)

Langkah 2: Gunakan buku catatan untuk mencantumkan dan membaca tabel bersama

Apache Spark: Membaca data bersama

Mencantumkan tabel bersama menggunakan Spark

Mengakses data bersama menggunakan Spark

Python

Scala

Mengakses umpan data perubahan bersama menggunakan Spark

Python

Scala

Mengakses tabel bersama menggunakan Spark Structured Streaming

Sampel kueri Streaming Terstruktur

Scala

Python

Membaca tabel dengan vektor penghapusan atau pemetaan kolom diaktifkan

Panda: Membaca data bersama

Mencantumkan tabel bersama menggunakan panda

Mengakses data bersama menggunakan panda

Mengakses umpan data perubahan bersama menggunakan panda

Power BI: Membaca data bersama

Persyaratan

Menyambung ke Databricks

Tableau: Membaca data bersama

Persyaratan

Menyambungkan ke Azure Databricks

Meminta kredensial baru

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Sebelum Anda mulai

Azure Databricks: Membaca data bersama menggunakan konektor berbagi terbuka

Langkah 1: Simpan file kredensial di DBFS (instruksi Python)

Langkah 2: Gunakan buku catatan untuk mencantumkan dan membaca tabel bersama

Apache Spark: Membaca data bersama

Menginstal konektor Delta Sharing Python dan Spark

Mencantumkan tabel bersama menggunakan Spark

Mengakses data bersama menggunakan Spark

Python

Scala

Mengakses umpan data perubahan bersama menggunakan Spark

Python

Scala

Mengakses tabel bersama menggunakan Spark Structured Streaming

Sampel kueri Streaming Terstruktur

Scala

Python

Membaca tabel dengan vektor penghapusan atau pemetaan kolom diaktifkan

Panda: Membaca data bersama

Menginstal konektor Python Berbagi Delta

Mencantumkan tabel bersama menggunakan panda

Mengakses data bersama menggunakan panda

Mengakses umpan data perubahan bersama menggunakan panda

Power BI: Membaca data bersama

Persyaratan

Menyambung ke Databricks

Batasan konektor Berbagi Delta Power BI

Tableau: Membaca data bersama

Persyaratan

Menyambungkan ke Azure Databricks

Batasan konektor Berbagi Delta Tableau

Meminta kredensial baru

Saran dan Komentar

Sumber Daya Tambahan: