構造化ストリーミングの運用に関する考慮事項

[アーティクル]
07/01/2024

この記事には、Azure Databricks で構造化ストリーミングを使い、運用環境の増分処理ワークロードを構成して、リアルタイムまたはバッチアプリケーションの待機時間とコストの要件を満たすための推奨事項が含まれています。 Azure Databricks での構造化ストリーミングの主要な概念を理解すると、データのボリュームと速度をスケールアップし、開発環境から運用環境に移行するときの、一般的な落とし穴を回避するのに役立ちます。

Azure Databricks では、構造化ストリーミングワークロードに関する運用インフラストラクチャの管理の複雑さを軽減するために、Delta Live Tables が導入されています。 Databricks では、新しい構造化ストリーミングパイプラインに Delta Live Tables を使うことをお勧めします。「Delta Live Tables とは」をご覧ください。

注意

コンピューティングの自動スケールには、構造化ストリーミングワークロードのクラスターサイズのスケールダウンに制限があります。 Databricks では、ストリーミングワークロードに、拡張自動スケーリングを備えた Delta Live Tables を使用することをお勧めします。「拡張自動スケーリングを使用して、Delta Live Tables パイプラインのクラスター使用率を最適化する」を参照してください。

構造化ストリーミングワークロードにノートブックを使用する

Databricks ノートブックを使用した対話型開発では、クエリを手動で実行するために、ノートブックをクラスターにアタッチする必要があります。ワークフローを使用して、自動デプロイとクエリエラーからの自動復旧のために、Databricks ノートブックをスケジュールできます。

対話型の開発中に、または運用ワークロードの対話型監視のために、構造化ストリーミングのクエリをノートブックで視覚化できます。運用環境では、人間がノートブックの出力を定期的に監視する場合にのみ、構造化ストリーミングのクエリを視覚化する必要があります。 trigger パラメーターと checkpointLocation パラメーターは省略可能ですが、ベストプラクティスとして、Databricks ではそれらを常に実稼働環境で指定することをお勧めします。

Azure Databricks 上での構造化ストリーミングのバッチサイズ、頻度、出力モードの制御

Azure Databricks の構造化ストリーミングには、自動ローダーと Delta Lake を使用したストリーミング中のコストと待機時間の制御に役立つ強化されたオプションがあります。出力モードを使用すると、Azure Databricks がシンクに書き込む方法を制御できます。

ステートフルストリーミングとは

"ステートフルな" 構造化ストリーミングクエリでは、中間状態情報の増分更新が必要です。一方、"ステートレスな" 構造化ストリーミングクエリでは、ソースからシンクに対して処理された行に関する情報のみが追跡されます。

ステートフル操作には、ストリーミングの集約、ストリーミングの dropDuplicates、ストリームストリーム結合、mapGroupsWithState、flatMapGroupsWithState が含まれます。

ステートフルな構造化ストリーミングクエリに必要な中間状態情報は、適切に構成されていない場合、予期しない待機時間と運用環境の問題につながる可能性があります。

Databricks Runtime 13.2 LTS 以降では、構造化ストリーミングワークロードのチェックポイント期間とエンドツーエンドの待機時間を短縮するために、RockDB の変更ログのチェックポイント処理を有効にすることができます。 Databricks では、すべての構造化ストリーミングステートフルクエリに対して変更ログのチェックポイント処理を有効にすることをお勧めします。変更ログのチェックポイント処理を有効にするを参照してください。

次の方法で共有

構造化ストリーミングの運用に関する考慮事項

構造化ストリーミングワークロードにノートブックを使用する

Azure Databricks 上での構造化ストリーミングのバッチサイズ、頻度、出力モードの制御

ステートフルストリーミングとは

フィードバック

フィードバック

その他のリソース

次の方法で共有

構造化ストリーミングの運用に関する考慮事項

構造化ストリーミング ワークロードにノートブックを使用する

Azure Databricks 上での構造化ストリーミングのバッチ サイズ、頻度、出力モードの制御

ステートフル ストリーミングとは

フィードバック

フィードバック

その他のリソース

構造化ストリーミングワークロードにノートブックを使用する

Azure Databricks 上での構造化ストリーミングのバッチサイズ、頻度、出力モードの制御

ステートフルストリーミングとは