Yapılandırılmış Akış durumu bilgilerini okuma
Önemli
Bu özellik Genel Önizlemededir.
Databricks Runtime 14.3 LTS ve üzerinde Yapılandırılmış Akış durumu verilerini ve meta verilerini sorgulamak için DataFrame işlemlerini veya SQL tablo değeri işlevlerini kullanabilirsiniz. Yapılandırılmış Akış durum bilgisi olan sorguların durum bilgilerini gözlemlemek için bu işlevleri kullanabilirsiniz. Bu, izleme ve hata ayıklama için yararlı olabilir.
Durum verilerini veya meta verileri sorgulamak için akış sorgusunun denetim noktası yoluna okuma erişiminiz olmalıdır. Bu makalede açıklanan işlevler, durum verilerine ve meta verilerine salt okunur erişim sağlar. Durum bilgilerini sorgulamak için yalnızca toplu okuma semantiği kullanabilirsiniz.
Not
Delta Live Tables işlem hatları, akış tabloları veya gerçekleştirilmiş görünümler için durum bilgilerini sorgulayamazsınız.
Yapılandırılmış Akış durum deposu okuma
Desteklenen herhangi bir Databricks Runtime'da yürütülen Yapılandırılmış Akış sorguları için durum deposu bilgilerini okuyabilirsiniz. Aşağıdaki sözdizimini kullanın:
Python
df = (spark.read
.format("statestore")
.load("/checkpoint/path"))
SQL
SELECT * FROM read_statestore('/checkpoint/path')
Aşağıdaki isteğe bağlı yapılandırmalar desteklenir:
Seçenek | Tür | Default value |
---|---|---|
batchId |
Uzun | en son toplu iş kimliği |
operatorId |
Uzun | 0 |
storeName |
String | "VARSAYıLAN" |
joinSide |
Dize ("sol" veya "sağ") | Okunacak hedef tarafı temsil eder. Bu seçenek, kullanıcılar stream-stream birleştirmesinden durumu okumak istediğinde kullanılır. |
Döndürülen veriler aşağıdaki şemaya sahiptir:
Sütun | Türü | Açıklama |
---|---|---|
key |
Yapı (durum anahtarından türetilen başka tür) | Durum denetim noktasında durum bilgisi olan işleç kaydının anahtarı. |
value |
Yapı (durum değerinden türetilen daha fazla tür) | Durum denetim noktasında durum bilgisi olan işleç kaydının değeri. |
partition_id |
Tam sayı | Durum bilgisi olan işleç kaydını içeren durum denetim noktasının bölümü. |
Yapılandırılmış Akış durumu meta verilerini okuma
Önemli
Durum meta verilerini kaydetmek için Databricks Runtime 14.2 veya üzerinde akış sorguları çalıştırmanız gerekir. Durum meta verileri dosyaları geriye dönük uyumluluğu bozmaz. Databricks Runtime 14.1 veya altında bir akış sorgusu çalıştırmayı seçerseniz, mevcut durum meta veri dosyaları yoksayılır ve yeni durum meta veri dosyaları yazılır.
Databricks Runtime 14.2 veya üzeri üzerinde çalıştırılan Yapılandırılmış Akış sorguları için durum meta verileri bilgilerini okuyabilirsiniz. Aşağıdaki sözdizimini kullanın:
Python
df = (spark.read
.format("state-metadata")
.load("<checkpointLocation>"))
SQL
SELECT * FROM read_state_metadata('/checkpoint/path')
Döndürülen veriler aşağıdaki şemaya sahiptir:
Sütun | Türü | Açıklama |
---|---|---|
operatorId |
Tam sayı | Durum bilgisi olan akış işlecinin tamsayı kimliği. |
operatorName |
Tam sayı | Durum bilgisi olan akış işlecinin adı. |
stateStoreName |
String | İşlecin durum deposunun adı. |
numPartitions |
Tam sayı | Durum deposunun bölüm sayısı. |
minBatchId |
Uzun | Sorgu durumu için en düşük toplu iş kimliği. |
maxBatchId |
Uzun | Durumu sorgulamak için en yüksek toplu iş kimliği. |
Not
tarafından minBatchId
sağlanan ve maxBatchId
tarafından sağlanan toplu iş kimliği değerleri, denetim noktasının yazıldığı zamandaki durumu yansıtır. Eski toplu işlemler mikro toplu iş yürütmesi ile otomatik olarak temizlenir, bu nedenle burada sağlanan değerin hala kullanılabilir olması garanti değildir.