構造化ストリーミング状態情報の読み取り

DataFrame 操作または SQL テーブル値関数を使用して、構造化ストリーミング状態のデータとメタデータに対してクエリを実行できます。これらの関数を使用して、構造化ストリーミングステートフルクエリの状態情報を監視します。これは、監視とデバッグに役立ちます。

状態データまたはメタデータのクエリを実行するには、ストリーミングのクエリに対するチェックポイントパスの読み取りアクセス権が必要です。この記事で説明する関数は、状態データとメタデータへの読み取り専用アクセスを提供します。状態情報のクエリには、バッチ読み取りセマンティクスのみを使用できます。

注

Lakeflow Spark 宣言パイプライン、ストリーミングテーブル、または具体化されたビューの状態情報を照会することはできません。標準アクセスモードで構成されたサーバーレスコンピューティングまたはコンピューティングを使用して状態情報を照会することはできません。

要求事項

次のいずれかのコンピューティング構成を使用します。
- 標準アクセスモードで構成されたコンピューティング上の Databricks Runtime バージョン16.3以降。
- 専用アクセスモードまたは分離アクセスモードなしで構成されたコンピューティング上の Databricks Runtime 14.3 LTS 以降。
ストリーミングクエリで使用されるチェックポイントパスに対する読み取り権限。

構造化ストリーミング状態ストアの読み取り

サポートされている Databricks Runtime で実行される構造化ストリーミングのクエリの状態ストア情報を読み取ることができます。次の構文を使用します。

Python

df = (spark.read
  .format("statestore")
  .load("/checkpoint/path"))

SQL

SELECT * FROM read_statestore('/checkpoint/path')

状態リーダー API パラメーター

状態リーダー API では、次の省略可能な構成がサポートされています。

オプション	タイプ	既定値	説明
`batchId`	長い	最新のバッチ ID	読み取り対象のバッチを表します。クエリの以前の状態の状態情報を照会するには、このオプションを指定します。バッチはコミットされるべきですが、まだクリーンアップされていません。
`operatorId`	長い	0	読み取り対象の演算子を表します。このオプションは、クエリで複数のステートフル演算子が使っている場合に使われます。
`storeName`	糸	デフォルト	読み取り対象のターゲット状態ストア名を表します。このオプションは、ステートフル演算子が複数の状態ストアインスタンスを使用する場合に使用されます。ストリーム間の結合には `storeName` または `joinSide` を指定する必要がありますが、両方を指定してはいけません。
`joinSide`	String ("left" または "right")		読み取り対象のサイドを表します。このオプションは、ユーザーがストリームストリーム結合から状態を読み取る場合に使用されます。
`stateVarName`	糸	無し	このクエリの一部として読み取る状態変数名。状態変数名は、`init` 演算子によって使用される`StatefulProcessor`の`transformWithState`関数内の各変数に指定される一意の名前です。このオプションは、 `transformWithState` 演算子を使用する場合に必要なオプションです。このオプションは、 `transformWithState` 演算子にのみ適用され、他の演算子では無視されます。 Databricks Runtime 16.2 以降で使用できます。
`readRegisteredTimers`	ブール値	偽り	`true`に設定して、`transformWithState` 演算子内で使用される登録済みタイマーを読み取ります。このオプションは、 `transformWithState` 演算子にのみ適用され、他の演算子では無視されます。 Databricks Runtime 16.2 以降で使用できます。
`flattenCollectionTypes`	ブール値	ほんとう	`true`場合は、マップおよびリスト状態変数に対して返されるレコードをフラット化します。 `false`場合、Spark SQL `Array`または`Map`を使用してレコードが返されます。このオプションは、 `transformWithState` 演算子にのみ適用され、他の演算子では無視されます。 Databricks Runtime 16.2 以降で使用できます。

返されるデータには次のスキーマがあります。

列	タイプ	説明
`key`	Struct (状態キーから派生した型)	状態チェックポイント内のステートフル演算子のレコードのキー。
`value`	Struct (状態値から派生した型)	状態チェックポイント内のステートフル演算子のレコードの値。
`partition_id`	整数型	状態チェックポイントの一部である、ステートフル演算子のレコードを含むパーティション。

テーブル値関数read_statestore参照してください。

構造化ストリーミング状態のメタデータの読み取り

重要

状態メタデータを記録するには、Databricks Runtime 14.2 以降でストリーミングのクエリを実行する必要があります。状態メタデータファイルは、下位互換性を損ないません。 Databricks Runtime 14.1 以前でストリーミングのクエリを実行することを選んだ場合、既存の状態メタデータファイルは無視され、新しい状態メタデータファイルは書き込まれません。

Databricks Runtime 14.2 以降で実行される構造化ストリーミングのクエリの状態メタデータ情報を読み取ることができます。次の構文を使用します。

Python

df = (spark.read
  .format("state-metadata")
  .load("<checkpointLocation>"))

SQL

SELECT * FROM read_state_metadata('/checkpoint/path')

返されるデータには次のスキーマがあります。

列	タイプ	説明
`operatorId`	整数	ステートフルストリーミング演算子の整数 ID。
`operatorName`	整数	ステートフルストリーミング演算子の名前。
`stateStoreName`	糸	演算子の状態ストアの名前。
`numPartitions`	整数	状態ストアのパーティションの数。
`minBatchId`	長い	状態のクエリに使用できる最小バッチ ID。
`maxBatchId`	長い	状態のクエリに使用できる最大バッチ ID。

注

minBatchId と maxBatchId によって指定されるバッチ ID 値は、チェックポイントが書き込まれた時点の状態を反映しています。古いバッチはマイクロバッチの実行によって自動的にクリーンアップされるため、ここで指定された値が引き続き使用できるとは限りません。

テーブル値関数read_state_metadata参照してください。

例: ストリーム結合の片方をクエリする

ストリームストリーム結合の左側でクエリを実行するには、次の構文を使用します。

Python

left_df = (spark.read
  .format("statestore")
  .option("joinSide", "left")
  .load("/checkpoint/path"))

SQL

SELECT * FROM read_statestore(
    '/checkpoint/path',
    joinSide => 'left'
);

例: 複数のステートフル演算子を使用してストリームの状態ストアを照会する

この例では、状態メタデータリーダーを使用して、複数のステートフル演算子を使用してストリーミングクエリのメタデータの詳細を収集し、そのメタデータ結果を状態リーダーのオプションとして使用します。

状態メタデータリーダーは、次の構文例のように、唯一のオプションとしてチェックポイントパスを受け取ります。

Python

df = (spark.read
  .format("state-metadata")
  .load("<checkpointLocation>"))

SQL

SELECT * FROM read_state_metadata('/checkpoint/path')

次の表は、状態ストアメタデータの出力例を示しています。

operatorId	オペレーター名	状態ストア名	numPartitions	minBatchId	maxBatchId
0	ステートストア保存	デフォルト	200	0	13
1	dedupeWithinWatermark（ウォーターマーク内で重複排除）	デフォルト	200	0	13

dedupeWithinWatermark演算子の結果を取得するには、次の例のように、operatorId オプションを使用して状態リーダーにクエリを実行します。

Python

left_df = (spark.read
  .format("statestore")
  .option("operatorId", 1)
  .load("/checkpoint/path"))

SQL

SELECT * FROM read_statestore(
    '/checkpoint/path',
    operatorId => 1
);

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-06

構造化ストリーミング状態情報の読み取り

要求事項

構造化ストリーミング状態ストアの読み取り

Python

SQL

状態リーダー API パラメーター

構造化ストリーミング状態のメタデータの読み取り

Python

SQL

例: ストリーム結合の片方をクエリする

Python

SQL

例: 複数のステートフル演算子を使用してストリームの状態ストアを照会する

Python

SQL

Python

SQL

フィードバック

その他のリソース