Databricks は、データ エンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、データ サイエンティストがダウンストリーム分析、AI、運用アプリケーション用に高品質のデータを提供できるようにするエンドツーエンドのデータ エンジニアリング ソリューションである Lakeflow を提供します。 Lakeflow は、データのインジェスト、変換、オーケストレーションのための統合ソリューションであり、Lakeflow Connect、Lakeflow Spark 宣言パイプライン、Lakeflow ジョブが含まれます。
Lakeflow Connect
Lakeflow Connect は、一般的なエンタープライズ アプリケーション、データベース、クラウド ストレージ、メッセージ バス、ローカル ファイルへのコネクタによるデータ インジェストを簡素化します。 Lakeflow Connectを参照してください。
| 特徴 | 説明 |
|---|---|
| マネージド コネクタ | マネージド コネクタは、シンプルな UI と構成ベースのインジェスト サービスを最小限の運用オーバーヘッドで提供します。基になるパイプライン API とインフラストラクチャを使用する必要はありません。 |
| 標準コネクタ | 標準コネクタを使用すると、パイプラインやその他のクエリ内から、より広範なデータ ソースのデータにアクセスできます。 |
Lakeflow Spark 宣言型パイプライン (SDP)
Lakeflow Spark 宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミング データ パイプラインの構築と管理の複雑さを低減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンス最適化 Databricks ランタイムで実行されている間、Apache Spark 宣言パイプラインと拡張され、相互運用できます。 SDP は、フロー、シンク、ストリーミング テーブル、具体化されたビューの実行をパイプラインとしてカプセル化して実行することで、自動的に調整します。 「Lakeflow Spark 宣言型パイプライン」を参照してください。
| 特徴 | 説明 |
|---|---|
| フロー | フローはパイプライン内のデータを処理します。 フロー API は、Apache Spark および構造化ストリーミングと同じ DataFrame API を使用します。 フローは、Kafka トピックなどのストリーミング テーブルやシンクに、ストリーミング セマンティクスを使用して書き込んだり、バッチ セマンティクスを使用して具体化されたビューに書き込んだりできます。 |
| ストリーミング テーブル | ストリーミング テーブルは、ストリーミングまたは増分データ処理の追加サポートを備えた Delta テーブルです。 パイプライン内の 1 つ以上のフローのターゲットとして機能します。 |
| 具体化されたビュー | 具体化されたビューは、アクセスを高速化するためにキャッシュされた結果を含むビューです。 具体化されたビューは、パイプラインのターゲットとして機能します。 |
| シンク | パイプラインでは、外部データ シンクがターゲットとしてサポートされます。 これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービス、Unity カタログによって管理される外部テーブル、Python で定義されたカスタム シンクなどがあります。 |
Lakeflow 職務
Lakeflow ジョブは、あらゆるデータと AI ワークロードに対して信頼性の高いオーケストレーションと運用の監視を提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。 ジョブでは、if/else ステートメントでの分岐や各ステートメントのループなど、カスタム制御フロー ロジックもサポートされています。 Lakeflow ジョブを参照してください。
| 特徴 | 説明 |
|---|---|
| 仕事 | ジョブはオーケストレーションのプライマリ リソースです。 これらは、スケジュールに基づいて実行するプロセスを表します。 |
| タスク | ジョブ内の特定の作業単位。 ジョブ内で実行できるさまざまなオプションを提供するさまざまな種類のタスクがあります。 |
| ジョブ内の制御フロー | 制御フロー タスクを使用すると、他のタスクを実行するか、実行するタスクの順序を制御できます。 |
Databricks Runtime for Apache Spark (Apache Spark用のDatabricksランタイム)
Databricks ランタイムは、バッチやストリーミングなど、Spark ワークロードを実行するための信頼性とパフォーマンスに最適化されたコンピューティング環境です。 Databricks Runtime は、Photon、高パフォーマンスの Databricks ネイティブ ベクター化クエリ エンジン、および自動スケールなどのさまざまなインフラストラクチャ最適化を提供します。 Spark プログラムをノートブック、JAR、または Python ホイールとして構築することで、Databricks ランタイムで Spark および構造化ストリーミング ワークロードを実行できます。 「Databricks Runtime for Apache Spark」を参照してください。
| 特徴 | 説明 |
|---|---|
| Databricks 上の Apache Spark | Spark は、Databricks データ インテリジェンス プラットフォームの中核をなしています。 |
| 構造化ストリーミング | 構造化ストリーミングは、ストリーミング データ用の Spark ほぼリアルタイムの処理エンジンです。 |
デルタ ライブ テーブル (DLT) はどうなりましたか?
Delta Live Tables (DLT) について詳しくは、「Delta Live Tables (DLT) の変更点」をご覧ください。
その他のリソース
- データ エンジニアリングの概念では、 Azure Databricks のデータ エンジニアリングの概念について説明します。
- Delta Lake は、Azure Databricks の lakehouse 内のテーブルの基盤を提供する最適化されたストレージ レイヤーです。
- データ エンジニアリングのベスト プラクティス では、Azure Databricks のデータ エンジニアリングのベスト プラクティスについて説明します。
- Databricks ノートブック は、コラボレーションと開発に人気のあるツールです。
- Databricks SQL では、Azure Databricks での SQL クエリと BI ツールの使用について説明します。
- Databricks Mosaic AI では、機械学習ソリューションの設計について説明します。