Azure Databricks でのストリーミング

[アーティクル]
03/01/2024

Azure Databricks は、ストリーミングデータのための凖リアルタイムのデータインジェスト、処理、機械学習、AI のために使用することができます。

Azure Databricks は、ストリーミングと増分処理のために数々の最適化を実現します。 Databricks では、ほとんどのストリーミングまたは増分データ処理または ETL タスクで Delta Live Tables を推奨します。「Delta Live Tables とは」を参照してください。

Azure Databricks における増分およびストリーミングワークロードのほとんどで、Delta Live Tables や自動ローダーなどの構造化ストリーミングが利用されます。「自動ローダー」を参照してください。

Delta Lake と構造化ストリーミングは、Databricks レイクハウスでの増分処理を強化するために緊密に統合されています。「差分テーブルのストリーミング読み取りと書き込み」を参照してください。

リアルタイムモデルの提供については、「Azure Databricks でのモデルの提供」を参照してください。

Azure Databricks プラットフォームでのストリーミングソリューションの構築について詳しくは、データストリーミング製品のページを参照してください。

Azure Databricks には、Avro、プロトコルバッファー、JSON データペイロードに含まれる半構造化データフィールドを操作するための特定の機能があります。詳細については、次を参照してください。

構造化ストリーミングとは

Apache Spark 構造化ストリーミングはほぼリアルタイムの処理エンジンであり、使い慣れた Spark API を使用し、厳密に 1 回の処理でエンドツーエンドのフォールトトレランスが提供されます。構造化ストリーミングでは、静的データに対するバッチ計算を表現するのと同じように、ストリーミングデータに対する計算を表現できます。構造化ストリーミングエンジンは、ストリーミングデータの受信と並行して、段階的に計算を実行し、継続的に結果を更新します。

構造化ストリーミングを初めて使用する場合は、「最初の構造化ストリーミングワークロードを実行する」を参照してください。

Unity Catalog での構造化ストリーミングの使用の詳細については、「構造化ストリーミングでの Unity Catalog の使用」を参照してください。

Azure Databricks でサポートされているストリーミングのソースとシンクは何ですか?

Databricks では、自動ローダーを使用し、サポートされている種類のファイルをクラウドオブジェクトストレージから Delta Lake に取り込むことを推奨しています。 ETL パイプラインの場合、Databricks では、Delta Live テーブル (デルタテーブルと構造化ストリーミングを使用) を使用することを推奨しています。 Delta Lake テーブルとの間でストリーミングすることで、増分 ETL ワークロードを構成することもできます。

Delta Lake と自動ローダーに加えて、構造化ストリーミングは、Apache Kafka などのメッセージングサービスに接続できます。

foreachBatch を使用して任意のデータシンクに書き込むこともできます。

その他の技術情報

Apache Spark で提供されている構造化ストリーミングのプログラミングガイドには、構造化ストリーミングの詳細について説明されています。

構造化ストリーミングのリファレンス情報について、Databricks では次の Apache Spark API リファレンスをお勧めします。

Azure Databricks でのストリーミング

構造化ストリーミングとは

Azure Databricks でサポートされているストリーミングのソースとシンクは何ですか?

その他の技術情報

その他のリソース