Membaca tabel-tabel yang dibagikan melalui Delta Sharing menggunakan Apache Spark DataFrames - Azure Databricks

Artikel ini menyediakan contoh sintaks penggunaan Apache Spark untuk melakukan kueri data yang dibagikan menggunakan Delta Sharing. deltasharing Gunakan kata kunci sebagai opsi format untuk operasi DataFrame.

Opsi lain untuk menelusuri data yang dibagikan

Anda juga dapat membuat kueri yang menggunakan nama tabel bersama di katalog Berbagi Delta yang terdaftar di metastore, seperti kueri dalam contoh berikut:

SQL

SELECT * FROM shared_table_name

Python

spark.read.table("shared_table_name")

Untuk informasi selengkapnya tentang mengkonfigurasikan Berbagi Delta di Azure Databricks dan melakukan kueri data menggunakan nama tabel yang dibagikan, lihat Baca data yang dibagikan melalui Delta Sharing Databricks-ke-Databricks (untuk penerima).

Anda dapat menggunakan Streaming Terstruktur untuk memproses rekaman dalam tabel bersama secara bertahap. Untuk menggunakan Streaming Terstruktur, Anda harus mengaktifkan berbagi riwayat untuk tabel. Lihat ALTER SHARE. Berbagi riwayat memerlukan Databricks Runtime 12.2 LTS atau lebih tinggi.

Jika tabel bersama memiliki umpan data perubahan yang diaktifkan pada tabel Delta sumber dan riwayat diaktifkan pada bagian berbagi data, Anda dapat menggunakan umpan data perubahan saat membaca berbagi Delta dengan Streaming Terstruktur atau operasi batch. Lihat Penggunaan umpan data perubahan Delta Lake di Azure Databricks.

Kata kunci deltasharing didukung untuk operasi baca DataFrame Apache Spark, seperti yang ditunjukkan dalam contoh berikut:

df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Untuk tabel yang memiliki riwayat bersama dan umpan data perubahan diaktifkan, Anda dapat membaca rekaman umpan data perubahan menggunakan Apache Spark DataFrames. Berbagi riwayat memerlukan Databricks Runtime 12.2 LTS atau lebih tinggi.

df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Untuk tabel yang memiliki riwayat yang dibagikan, Anda dapat menggunakan tabel bersama sebagai sumber untuk Streaming Terstruktur. Berbagi riwayat memerlukan Databricks Runtime 12.2 LTS atau lebih tinggi.

streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-03-30

Membaca tabel yang dibagikan melalui Delta Sharing menggunakan Apache Spark DataFrames

Opsi lain untuk menelusuri data yang dibagikan

SQL

Python

Membaca menggunakan kata kunci untuk format Berbagi Delta

Membaca umpan data perubahan untuk tabel bersama Delta Sharing

Membaca tabel Delta Sharing yang dibagikan dengan Streaming Terstruktur

Saran dan Komentar

Sumber Daya Tambahan: