Azure Databricks のデータ処理ワークフローを調整する
Azure Databricks には、データ処理ワークフローをサポートするための包括的なツールと統合のスイートが用意されています。
Azure Databricks ジョブを使用したデータ処理または分析ワークフロー
Azure Databricks ジョブを使用して、スケーラブルなリソースを持つ Azure Databricks クラスターでデータ処理またはデータ分析のタスクを実行できます。 ジョブは単一タスクで構成するか、複雑な依存関係がある大規模なマルチタスク ワークフローで構成できます。 Azure Databricks が、すべてのジョブのタスク オーケストレーション、クラスター管理、監視、およびエラー レポートを管理します。 ジョブの実行は、すぐに、または使いやすいスケジューリング システムを使用して定期的に行えます。 ジョブ タスクは、ノートブック、JARS、Delta Live Tables パイプライン、または Python、Scala、Spark submit、Java のアプリケーションを使用して実装できます。
ジョブの作成は、ジョブ UI、Jobs API、または Databricks CLI を使用して行います。 ジョブ UI を使用すると、実行中または完了したジョブの監視、テスト、およびトラブルシューティングを行うことができます。
作業を開始するには:
- クイックスタートを使用し、最初の Azure Databricks ジョブ ワークフローを作成します。
- Azure Databricks ジョブのユーザー インターフェイスを使用してワークフローを作成、表示、実行する方法について説明します。
- タスク値を使用して Azure Databricks ジョブ内のタスク間で情報を通信する方法について説明します。
- Azure Databricks ジョブでワークフローの作成と管理をサポートするための「Jobs API の更新」を確認します。
- ワークフローで dbt 変換を使用する方法について説明します。
- Apache Airflow を使用して Azure Databricks ジョブを管理およびスケジュールする方法について説明します。
- ワークフローで Databricks SQL タスクを使用する方法について説明します。
- ワークフロー タスクで Python ホイールを使用する方法について説明します。
- ワークフロー タスクで Java または Scala JAR を使用する方法について説明します。
- 失敗したジョブのトラブルシューティングと修正を行う方法について説明します。
- ジョブでバージョン管理されたノートブックを使用します。
Delta Live Tables を使用してデータを変換する
注意
Delta Live Tables には Premium プランが必要です。 詳細については、Databricks のアカウント担当者にお問い合わせください。
Delta Live Tables は、信頼性が高く、保守が容易で、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。 データに対して実行する変換を定義すると、Delta Live Tables によってタスク オーケストレーション、クラスター管理、監視、データ品質、およびエラー処理が管理されます。 Delta Live Tables パイプラインを使用してデータ処理ワークフロー全体を構築することも、Azure Databricks ジョブ ワークフローにパイプラインを統合して複雑なデータ処理ワークフローを調整することもできます。
最初に、「Delta Live Tables の概要」を参照してください。