Aracılığıyla paylaş


Yapılandırılmış Akış durumu bilgilerini okuma

Önemli

Bu özellik Genel Önizlemededir.

Databricks Runtime 14.3 LTS ve üzerinde Yapılandırılmış Akış durumu verilerini ve meta verilerini sorgulamak için DataFrame işlemlerini veya SQL tablo değeri işlevlerini kullanabilirsiniz. Yapılandırılmış Akış durum bilgisi olan sorguların durum bilgilerini gözlemlemek için bu işlevleri kullanabilirsiniz. Bu, izleme ve hata ayıklama için yararlı olabilir.

Durum verilerini veya meta verileri sorgulamak için akış sorgusunun denetim noktası yoluna okuma erişiminiz olmalıdır. Bu makalede açıklanan işlevler, durum verilerine ve meta verilerine salt okunur erişim sağlar. Durum bilgilerini sorgulamak için yalnızca toplu okuma semantiği kullanabilirsiniz.

Not

Delta Live Tables işlem hatları, akış tabloları veya gerçekleştirilmiş görünümler için durum bilgilerini sorgulayamazsınız.

Yapılandırılmış Akış durum deposu okuma

Desteklenen herhangi bir Databricks Runtime'da yürütülen Yapılandırılmış Akış sorguları için durum deposu bilgilerini okuyabilirsiniz. Aşağıdaki sözdizimini kullanın:

Python

df = (spark.read
  .format("statestore")
  .load("/checkpoint/path"))

SQL

SELECT * FROM read_statestore('/checkpoint/path')

Aşağıdaki isteğe bağlı yapılandırmalar desteklenir:

Seçenek Tür Default value
batchId Uzun en son toplu iş kimliği
operatorId Uzun 0
storeName String "VARSAYıLAN"
joinSide Dize ("sol" veya "sağ") Okunacak hedef tarafı temsil eder. Bu seçenek, kullanıcılar stream-stream birleştirmesinden durumu okumak istediğinde kullanılır.

Döndürülen veriler aşağıdaki şemaya sahiptir:

Sütun Türü Açıklama
key Yapı (durum anahtarından türetilen başka tür) Durum denetim noktasında durum bilgisi olan işleç kaydının anahtarı.
value Yapı (durum değerinden türetilen daha fazla tür) Durum denetim noktasında durum bilgisi olan işleç kaydının değeri.
partition_id Tam sayı Durum bilgisi olan işleç kaydını içeren durum denetim noktasının bölümü.

Yapılandırılmış Akış durumu meta verilerini okuma

Önemli

Durum meta verilerini kaydetmek için Databricks Runtime 14.2 veya üzerinde akış sorguları çalıştırmanız gerekir. Durum meta verileri dosyaları geriye dönük uyumluluğu bozmaz. Databricks Runtime 14.1 veya altında bir akış sorgusu çalıştırmayı seçerseniz, mevcut durum meta veri dosyaları yoksayılır ve yeni durum meta veri dosyaları yazılır.

Databricks Runtime 14.2 veya üzeri üzerinde çalıştırılan Yapılandırılmış Akış sorguları için durum meta verileri bilgilerini okuyabilirsiniz. Aşağıdaki sözdizimini kullanın:

Python

df = (spark.read
  .format("state-metadata")
  .load("<checkpointLocation>"))

SQL

SELECT * FROM read_state_metadata('/checkpoint/path')

Döndürülen veriler aşağıdaki şemaya sahiptir:

Sütun Türü Açıklama
operatorId Tam sayı Durum bilgisi olan akış işlecinin tamsayı kimliği.
operatorName Tam sayı Durum bilgisi olan akış işlecinin adı.
stateStoreName String İşlecin durum deposunun adı.
numPartitions Tam sayı Durum deposunun bölüm sayısı.
minBatchId Uzun Sorgu durumu için en düşük toplu iş kimliği.
maxBatchId Uzun Durumu sorgulamak için en yüksek toplu iş kimliği.

Not

tarafından minBatchId sağlanan ve maxBatchId tarafından sağlanan toplu iş kimliği değerleri, denetim noktasının yazıldığı zamandaki durumu yansıtır. Eski toplu işlemler mikro toplu iş yürütmesi ile otomatik olarak temizlenir, bu nedenle burada sağlanan değerin hala kullanılabilir olması garanti değildir.