次の方法で共有


Azure Databricks での手続き型データ処理と宣言型データ処理

この記事では、手続き型プログラミングと宣言型プログラミングの違いと、Databricks での使用方法について説明します。

手続き型プログラミングと宣言型プログラミングは、コンピューター サイエンスにおける 2 つの基本的なプログラミング パラダイムです。 それぞれが、命令の構成と実行に対する異なるアプローチを表します。

  • 手続き型プログラミングでは、操作の明示的なシーケンスを定義することによってタスクを実行する方法を指定します。
  • 宣言型プログラミングでは、何を達成する必要があるかに焦点を当て、基になるシステムを残して、タスクを実行する最適な方法を決定します。

データ パイプラインを設計する場合、エンジニアは手続き型データ処理モデルと宣言型データ処理モデルのどちらかを選択する必要があります。 この決定は、ワークフローの複雑さ、保守容易性、効率性に影響します。 このページでは、これらのモデルの主な違い、利点と課題、および各アプローチをいつ使用するかを説明します。

手続き型データ処理とは

手続き型データ処理は、データを操作するために明示的な手順を定義する構造化されたアプローチに従います。 このモデルは命令型プログラミングと密接に連携し、データの処理方法を決定するコマンド シーケンスを強調しています。

手続き型処理の特性

手続き型処理の特性を次に示します。

  • ステップ バイ ステップ実行: 開発者は、操作の順序を明示的に定義します。
  • 制御構造の使用: ループ、条件、および関数は実行フローを管理します。
  • 詳細なリソース制御: きめ細かな最適化と手動のパフォーマンス チューニングを有効にします。
  • 関連する概念: 手続き型プログラミングは命令型プログラミングのサブクラスです。

手続き型処理の一般的なユース ケース

手続き型処理の日常的なユース ケースを次に示します。

  • 手続き型ロジックを必要とするカスタム ETL パイプライン。
  • バッチ ワークフローとストリーミング ワークフローでの低レベルのパフォーマンス最適化。
  • レガシ システムまたは既存の命令型スクリプト。

Apache Spark および Lakeflow ジョブを用いた手続き型処理

Apache Spark は、主にデータ処理の手続き型モデルに従います。 Lakeflow ジョブを使用して明示的な実行ロジックを追加し、分散データに対するステップ バイ ステップの変換とアクションを定義します。

宣言型データ処理とは

宣言型データ処理では、目的の結果を定義する方法と焦点が抽象化されます。 開発者は、ステップ バイ ステップの命令を指定する代わりに、変換ロジックを定義し、システムによって最も効率的な実行プランが決定されます。

宣言型処理の特性

宣言型処理の特性を次に示します。

  • 実行の詳細の抽象化: ユーザーは、目的の結果を説明し、それを実現する手順は説明しません。
  • 自動最適化: システムは、クエリの計画と実行のチューニングを適用します。
  • 複雑さの軽減: 明示的な制御構造の必要性を排除し、保守容易性を向上させます。
  • 関連する概念: 宣言型プログラミングには、ドメイン固有のプログラミング パラダイムと関数型プログラミング パラダイムが含まれます。

宣言型処理の一般的なユース ケース

宣言型処理の一般的なユース ケースを次に示します。

  • バッチ ワークフローとストリーミング ワークフローでの SQL ベースの変換。
  • Lakeflow 宣言パイプラインなどの高度なデータ処理フレームワーク。
  • 自動化された最適化を必要とするスケーラブルな分散データ ワークロード。

Lakeflow 宣言パイプラインを使用した宣言型処理

Lakeflow 宣言型パイプラインは、信頼性が高く保守しやすいストリーム処理パイプラインの作成を簡略化するように設計された宣言型フレームワークです。 取り込むデータとその変換方法を指定することで、Lakeflow 宣言パイプラインは、オーケストレーション、コンピューティング管理、監視、データ品質の強制、エラー処理など、パイプライン管理の主要な側面を自動化します。

主な違い: 手続き型処理と宣言型処理

特徴 手続き処理 宣言型処理
コントロール 実行を完全に制御する システムによって処理される実行
複雑さ 複雑で詳細な場合があります 一般的に、よりシンプルで簡潔
最適化 手動チューニングが必要 システムが最適化を処理する
柔軟性 高いが専門知識が必要 低いが使いやすい
利用事例 カスタム パイプライン、パフォーマンス チューニング SQL クエリ、マネージド パイプライン

手続き型または宣言型の処理を選択するタイミング

次の表は、手続き型処理と宣言型処理の重要な決定ポイントの一部を示しています。

手続き処理 宣言型処理
実行ロジックをきめ細かく制御する必要があります。 開発とメンテナンスの簡素化が優先事項です。
変換には、宣言的に表現するのが難しい複雑なビジネス ルールが含まれます。 SQL ベースの変換またはマネージド ワークフローにより、手続き型制御が不要になります。
パフォーマンスの最適化には、手動によるチューニングが必要です。 Lakeflow 宣言型パイプラインなどのデータ処理フレームワークでは、組み込みの最適化が提供されます。