Azure Databricks のデータ処理ワークフローを調整する

Azure Databricks には、データ処理ワークフローをサポートするための包括的なツールと統合のスイートが用意されています。

Azure Databricks ジョブを使用したデータ処理または分析ワークフロー

Azure Databricks ジョブを使用して、スケーラブルなリソースを持つ Azure Databricks クラスターでデータ処理またはデータ分析のタスクを実行できます。 ジョブは単一タスクで構成するか、複雑な依存関係がある大規模なマルチタスク ワークフローで構成できます。 Azure Databricks が、すべてのジョブのタスク オーケストレーション、クラスター管理、監視、およびエラー レポートを管理します。 ジョブの実行は、すぐに、または使いやすいスケジューリング システムを使用して定期的に行えます。 ジョブ タスクは、ノートブック、JARS、Delta Live Tables パイプライン、または Python、Scala、Spark submit、Java のアプリケーションを使用して実装できます。

ジョブの作成は、ジョブ UI、Jobs API、または Databricks CLI を使用して行います。 ジョブ UI を使用すると、実行中または完了したジョブの監視、テスト、およびトラブルシューティングを行うことができます。

作業を開始するには:

Delta Live Tables を使用してデータを変換する

注意

Delta Live Tables には Premium プランが必要です。 詳細については、Databricks のアカウント担当者にお問い合わせください。

Delta Live Tables は、信頼性が高く、保守が容易で、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。 データに対して実行する変換を定義すると、Delta Live Tables によってタスク オーケストレーション、クラスター管理、監視、データ品質、およびエラー処理が管理されます。 Delta Live Tables パイプラインを使用してデータ処理ワークフロー全体を構築することも、Azure Databricks ジョブ ワークフローにパイプラインを統合して複雑なデータ処理ワークフローを調整することもできます。

最初に、「Delta Live Tables の概要」を参照してください。