Apache Spark DataFrames kullanarak Delta Paylaşımı paylaşılan tablolarını okuma
Bu makalede, Delta Sharing kullanılarak paylaşılan verileri sorgulamak için Apache Spark kullanımına yönelik söz dizimi örnekleri sağlanır. deltasharing
DataFrame işlemleri için biçim seçeneği olarak anahtar sözcüğünü kullanın.
Paylaşılan verileri sorgulamaya yönelik diğer seçenekler
Meta veri deposunda kayıtlı Delta Sharing kataloglarında paylaşılan tablo adlarını kullanan sorgular da oluşturabilirsiniz. Örneğin, aşağıdaki örneklerde verilmiştir:
SQL
SELECT * FROM shared_table_name
Python
spark.read.table("shared_table_name")
Azure Databricks'te Delta Paylaşımını yapılandırma ve paylaşılan tablo adlarını kullanarak verileri sorgulama hakkında daha fazla bilgi için bkz. Databricks-to-Databricks Delta Sharing kullanarak paylaşılan verileri okuma (alıcılar için).
Paylaşılan tablolardaki kayıtları artımlı olarak işlemek için Yapılandırılmış Akış'ı kullanabilirsiniz. Yapılandırılmış Akış'ı kullanmak için tablo için geçmiş paylaşımını etkinleştirmeniz gerekir. Bkz. ALTER SHARE. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.
Paylaşılan tabloda kaynak Delta tablosunda değişiklik veri akışı etkinleştirildiyse ve paylaşımda geçmiş etkinleştirildiyse, Değişiklik veri akışını, Yapılandırılmış Akış veya toplu işlemlerle delta paylaşımını okurken kullanabilirsiniz. Bkz . Azure Databricks'te Delta Lake değişiklik veri akışını kullanma.
Delta Sharing biçim anahtar sözcüğüyle okuma
Anahtar deltasharing
sözcüğü, aşağıdaki örnekte gösterildiği gibi Apache Spark DataFrame okuma işlemleri için desteklenir:
df = (spark.read
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Delta Sharing paylaşılan tabloları için değişiklik veri akışını okuma
Geçmiş paylaşılan ve değişiklik veri akışı etkinleştirilmiş tablolar için Apache Spark DataFrames kullanarak değişiklik veri akışı kayıtlarını okuyabilirsiniz. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.
df = (spark.read
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.option("endingTimestamp", "2021-05-21 12:00:00")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Yapılandırılmış Akış kullanarak Delta Sharing paylaşılan tablolarını okuma
Geçmişi paylaşılan tablolar için, paylaşılan tabloyu Yapılandırılmış Akış için kaynak olarak kullanabilirsiniz. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.
streaming_df = (spark.readStream
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)