次の方法で共有


Microsoft Fabric でカスタム Spark プールを作成する方法

この記事では、分析ワークロード用に Microsoft Fabric でカスタム Apache Spark プールを作成する方法について説明します。 Apache Spark プールを使用すると、要件に基づいて調整されたコンピューティング環境を作成できるため、最適なパフォーマンスとリソースの使用が得られます。

自動スケールの最小ノードと最大ノードを指定します。 システムは、ジョブのコンピューティング ニーズの変化に応じてノードを取得および廃止するため、スケーリングは効率的であり、パフォーマンスが向上します。 Spark プールでは Executor の数が自動的に調整されるため、手動で設定する必要はありません。 システムは、データ ボリュームとジョブコンピューティングのニーズに基づいて Executor の数を変更するため、パフォーマンスチューニングやリソース管理ではなくワークロードに集中できます。

ヒント

Spark プールを構成する場合、ノード サイズは、各ノードに割り当てられたコンピューティング容量を表す容量 ユニット (CU) によって決まります。 ノード サイズと CU の詳細については、このガイドの 「ノード サイズ オプション 」セクションを参照してください。

[前提条件]

カスタム Spark プールを作成するには、ワークスペースへの管理者アクセス権があることを確認します。 容量管理者は、[容量管理者] 設定[Spark コンピューティング] セクションの [カスタマイズされたワークスペース プール] オプションを有効にします。 詳細については、「 ファブリック容量の Spark コンピューティング設定」を参照してください。

カスタム Spark プールを作成する

ワークスペースに関連付けられている Spark プールを作成または管理するには:

  1. ワークスペースに移動し、[ワークスペースの設定]選択します。

  2. データ エンジニアリング/サイエンス オプションを選択してメニューを展開し、Spark 設定を選択します。

    Spark 設定の詳細ビューを示すスクリーンショット。

  3. 新しいプール オプションを選択します。 作成プール 画面で、Spark プールに名前を付けます。 また、ノード ファミリを選択し、ワークロードのコンピューティング要件に基づいて、使用可能なサイズ (SmallMediumLargeX-LargeXX-Large) から ノード サイズ を選択します。

    カスタム プール作成オプションを示すスクリーンショット。

  4. カスタム プールの最小ノード構成を 1に設定できます。 Fabric Spark は 1 つのノードを持つクラスターに復元可能な可用性を提供するため、ジョブの失敗、障害時のセッションの損失、または小規模な Spark ジョブのコンピューティング料金の超過について心配する必要はありません。

  5. カスタム Spark プールの自動スケールを有効または無効にすることができます。 自動スケールが有効になっている場合、プールは、ユーザーが指定した最大ノード制限まで新しいノードを動的に取得し、ジョブの実行後に削除します。 この機能は、ジョブの要件に基づいてリソースを調整することで、パフォーマンスを向上させます。 Fabric 容量 SKU の一部として購入した容量ユニット内に収まるノードのサイズを設定できます。

    自動スケーリングと動的割り当てのカスタム プール作成オプションを示すスクリーンショット。

  6. スライダーを使用して、Executor の数を調整できます。 各 Executor は、タスクを実行し、メモリ内のデータを保持する Spark プロセスです。 Executor を増やすと並列処理が向上しますが、クラスターのサイズと起動時間も増加します。 Spark プールに対して動的実行プログラムの割り当てを有効にすることもできます。これによって、ユーザー指定の最大バインド内の Executor の最適な数が自動的に決定されます。 この機能により、データ ボリュームに基づいて Executor の数が調整され、パフォーマンスとリソース使用率が向上します。

これらのカスタム プールの既定の自動一時停止期間は、非アクティブな期間の有効期限が切れてから 2 分です。 自動一時停止期間に達すると、セッションは期限切れになり、クラスターは割り当て解除されます。 ノードの数と、カスタム Spark プールが使用される期間に基づいて課金されます。

手記

Microsoft Fabric のカスタム Spark プールでは、現在、ノードの上限 200 がサポートされています。 自動スケールを構成したり、手動ノード数を設定したりする場合は、最小値と最大値がこの制限内に留まるようにしてください。 この制限を超えると、プールの作成または更新中に検証エラーが発生します。

ノード サイズ オプション

カスタム Spark プールを設定するときは、次のノード サイズから選択します。

ノード サイズ 容量ユニット (CU) メモリ (GB) 説明
小さい 4 32 軽量な開発およびテスト作業のために。
ミディアム 8 64 一般的なワークロードや通常の操作の場合。
大きい 16 128 メモリを集中的に使用するタスクまたは大規模なデータ処理ジョブの場合。
X-Large 32 256 重要なリソースを必要とする最も要求の厳しい Spark ワークロードの場合。

手記

Microsoft Fabric Spark プールの容量ユニット (CU) は、実際の使用量ではなく、各ノードに割り当てられたコンピューティング容量を表します。 容量ユニットは、SQL ベースの Azure リソースで使用される仮想コア (Virtual Core) とは異なります。 CU は Fabric の Spark プールの標準的な用語ですが、SQL プールでは仮想コアの方が一般的です。 ノードのサイズを設定するときは、CU を使用して、Spark ワークロードに割り当てられた容量を決定します。

  • 詳細については、Apache Spark パブリック ドキュメントを参照してください。
  • Microsoft Fabricの Spark ワークスペース管理設定の使用を始めましょう。