Azure Databricks でのストリーミング
Azure Databricks は、ストリーミング データのための凖リアルタイムのデータ インジェスト、処理、機械学習、AI のために使用することができます。
Azure Databricks は、次の例を含むストリーミングと増分処理のために数々の最適化を実現します。
- Delta Live Tables には、増分処理のための宣言構文が用意されています。 「Delta Live Tables とは」を参照してください。
- 自動ローダーにより、クラウド オブジェクト ストレージからの増分インジェストが簡略化されます。 「自動ローダー」を参照してください。
- Unity Catalog は、ストリーミング ワークロードにデータ ガバナンスを追加します。 「構造化ストリーミングで Unity Catalog を使用する」を参照してください。
Delta Lake には、これらの統合用のストレージ レイヤーが用意されています。 「差分テーブルのストリーミング読み取りと書き込み」を参照してください。
リアルタイム モデルの提供については、「Azure Databricks でのモデルの提供」を参照してください。
-
Azure Databricks での構造化ストリームを使用したほぼリアルタイムおよび増分処理の基本について説明します。
-
構造化ストリーミングを使用して増分および凖リアルタイムのワークロードを構成するための主要な概念について説明します。
-
ステートフルな構造化ストリーミング クエリの中間状態の情報を管理することにより、予期せぬ待機時間や運用環境の問題を防ぐことができます。
-
この記事には、Azure Databricks で構造化ストリーミングを使うと、運用環境の増分処理ワークロードを簡単に構成して、リアルタイムまたはバッチ アプリケーションの待機時間とコストの要件を満たすためのレコメンデーションがあります。
-
Azure Databricks で構造化ストリーミング アプリケーションを監視する方法について説明します。
-
Azure Databricks で構造化ストリーミングと組み合わせて Unity Catalog を活用する方法について説明します。
-
Delta Lake テーブルをストリーミング ソースおよびシンクとして使用する方法について学習します。
-
Azure Databricks の Cassandra、Azure Synapse Analytics、Python ノートブック、Scala ノートブックで Spark 構造化ストリーミングを使用する例をご覧ください。
Azure Databricks には、Avro、プロトコル バッファー、JSON データ ペイロードに含まれる半構造化データ フィールドを操作するための特定の機能があります。 詳細については、次を参照してください。
その他のリソース
Apache Spark で提供されている構造化ストリーミングのプログラミング ガイドには、構造化ストリーミングの詳細について説明されています。
構造化ストリーミングのリファレンス情報について、Databricks では次の Apache Spark API リファレンスをお勧めします。