Databricks を使用したデータエンジニアリング

Databricks は、データエンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、データサイエンティストがダウンストリーム分析、AI、運用アプリケーション用に高品質のデータを提供できるようにするエンドツーエンドのデータエンジニアリングソリューションである Lakeflow を提供します。 Lakeflow は、データのインジェスト、変換、オーケストレーションのための統合ソリューションであり、Lakeflow Connect、Lakeflow Spark 宣言パイプライン、Lakeflow ジョブが含まれます。

Lakeflow Connect

Lakeflow Connect は、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタによるデータインジェストを簡素化します。 Lakeflow Connectを参照してください。

特徴	説明
マネージドコネクタ	マネージドコネクタは、シンプルな UI と構成ベースのインジェストサービスを最小限の運用オーバーヘッドで提供します。基になるパイプライン API とインフラストラクチャを使用する必要はありません。
標準コネクタ	標準コネクタを使用すると、パイプラインやその他のクエリ内から、より広範なデータソースのデータにアクセスできます。

Lakeflow Spark 宣言型パイプライン (SDP)

Lakeflow Spark 宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを低減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンス最適化 Databricks ランタイムで実行されている間、Apache Spark 宣言パイプラインと拡張され、相互運用できます。 SDP は、フロー、シンク、ストリーミングテーブル、具体化されたビューの実行をパイプラインとしてカプセル化して実行することで、自動的に調整します。「Lakeflow Spark 宣言型パイプライン」を参照してください。

特徴	説明
フロー	フローはパイプライン内のデータを処理します。フロー API は、Apache Spark および構造化ストリーミングと同じ DataFrame API を使用します。フローは、Kafka トピックなどのストリーミングテーブルやシンクに、ストリーミングセマンティクスを使用して書き込んだり、バッチセマンティクスを使用して具体化されたビューに書き込んだりできます。
ストリーミングテーブル	ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えた Delta テーブルです。パイプライン内の 1 つ以上のフローのターゲットとして機能します。
具体化されたビュー	具体化されたビューは、アクセスを高速化するためにキャッシュされた結果を含むビューです。具体化されたビューは、パイプラインのターゲットとして機能します。
シンク	パイプラインでは、外部データシンクがターゲットとしてサポートされます。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベントストリーミングサービス、Unity カタログによって管理される外部テーブル、Python で定義されたカスタムシンクなどがあります。

Lakeflow 職務

Lakeflow ジョブは、あらゆるデータと AI ワークロードに対して信頼性の高いオーケストレーションと運用の監視を提供します。ジョブは、ノートブック、パイプライン、マネージドコネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブでは、if/else ステートメントでの分岐や各ステートメントのループなど、カスタム制御フローロジックもサポートされています。 Lakeflow ジョブを参照してください。

特徴	説明
仕事	ジョブはオーケストレーションのプライマリリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。
タスク	ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまな種類のタスクがあります。
ジョブ内の制御フロー	制御フロータスクを使用すると、他のタスクを実行するか、実行するタスクの順序を制御できます。

Databricks Runtime for Apache Spark (Apache Spark用のDatabricksランタイム)

Databricks ランタイムは、バッチやストリーミングなど、Spark ワークロードを実行するための信頼性とパフォーマンスに最適化されたコンピューティング環境です。 Databricks Runtime は、Photon、高パフォーマンスの Databricks ネイティブベクター化クエリエンジン、および自動スケールなどのさまざまなインフラストラクチャ最適化を提供します。 Spark プログラムをノートブック、JAR、または Python ホイールとして構築することで、Databricks ランタイムで Spark および構造化ストリーミングワークロードを実行できます。「Databricks Runtime for Apache Spark」を参照してください。

特徴	説明
Databricks 上の Apache Spark	Spark は、Databricks データインテリジェンスプラットフォームの中核をなしています。
構造化ストリーミング	構造化ストリーミングは、ストリーミングデータ用の Spark ほぼリアルタイムの処理エンジンです。

デルタライブテーブル (DLT) はどうなりましたか?

Delta Live Tables (DLT) について詳しくは、「Delta Live Tables (DLT) の変更点」をご覧ください。

その他のリソース

データエンジニアリングの概念では、 Azure Databricks のデータエンジニアリングの概念について説明します。
Delta Lake は、Azure Databricks の lakehouse 内のテーブルの基盤を提供する最適化されたストレージレイヤーです。
データエンジニアリングのベストプラクティスでは、Azure Databricks のデータエンジニアリングのベストプラクティスについて説明します。
Databricks ノートブックは、コラボレーションと開発に人気のあるツールです。
Databricks SQL では、Azure Databricks での SQL クエリと BI ツールの使用について説明します。
Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-01-23

次の方法で共有

Databricks を使用したデータ エンジニアリング

Lakeflow Connect

Lakeflow Spark 宣言型パイプライン (SDP)

Lakeflow 職務

Databricks Runtime for Apache Spark (Apache Spark用のDatabricksランタイム)

デルタ ライブ テーブル (DLT) はどうなりましたか?

その他のリソース

フィードバック

その他のリソース

Databricks を使用したデータエンジニアリング

デルタライブテーブル (DLT) はどうなりましたか?