Microsoft Fabric の Apache Spark コンピューティングとは？

適用対象:✅ Microsoft Fabric でのデータエンジニアリングとデータサイエンス

Microsoft Fabric のデータエンジニアリングとデータサイエンのエクスペリエンスは、フルマネージドの Apache Spark コンピューティングプラットフォームで動作します。このプラットフォームは、並外れた速度と効率を提供するように設計されています。スタータープールを使うと、Apache Spark セッションの短時間での初期化 (通常 5 から 10 秒以内) が期待でき、手動セットアップは必要ありません。また、特定のデータエンジニアリングとデータサイエンスの要件に従って、Apache Spark プールを柔軟にカスタマイズすることもできます。このプラットフォームにより、最適化され、調整された分析エクスペリエンスが可能になります。簡単に言えば、スタータープールは事前構成済みの Spark を簡単に使用する方法ですが、Spark プールではカスタマイズと柔軟性が提供されます。

スタータープール

スタータープールは、Microsoft Fabric プラットフォームで Spark を数秒以内に使用するための高速で簡単な方法です。 Spark セッションは、Spark によってノードが設定されるのを待機せず、すぐに使用できます。このため、データを使用してより多くの作業を行い、より迅速に分析情報を得ることができます。

スタータープールには、要求に対して常に有効で準備ができているセッションを含む Apache Spark クラスターがあります。これは、Spark ジョブのニーズに基づいて動的にスケールアップする中間ノードを使用します。

追加のライブラリ依存関係やカスタム Spark プロパティなしでスタータープールを使用する場合、通常、セッションは 5 ~ 10 秒で開始されます。この高速スタートアップは、クラスターが既に実行されており、プロビジョニング時間を必要としないためです。

注

スタータープールは中ノードサイズでのみサポートされ、他のノードサイズを選択するか、コンピューティング構成をカスタマイズすると、オンデマンドセッションの開始エクスペリエンスが 2 ~ 5 分かかる可能性があります

ただし、セッションの開始に時間がかかるシナリオがいくつかあります。

カスタムライブラリまたは Spark プロパティがある
環境内でライブラリまたはカスタム設定を構成した場合、Spark は作成後にセッションをカスタマイズする必要があります。このプロセスは、ライブラリの依存関係の数とサイズに応じて、起動時間に約 30 秒から 5 分 かかります。
リージョン内のスタータープールが完全に使用されている
まれに、トラフィックが多いため、リージョンのスタータープールが一時的に使い果たされることがあります。その場合、Fabric は要求に対応するために 新しいクラスター を起動します。所要時間は約 2 ~ 5 分です。新しいクラスターが使用可能になると、セッションが開始されます。インストールするカスタムライブラリもある場合は、パーソナル化に必要な 30 秒から 5 分 を追加する必要があります。
高度なネットワークまたはセキュリティ機能 (プライベートリンクまたはマネージド VNet)
ワークスペースに テナントプライベートリンク や マネージド VNet などのネットワーク機能がある場合、スタータープールはサポートされません。この状況では、Fabric はオンデマンドでクラスターを作成する必要があります。これにより、セッションの開始時刻 に 2 分から 5 分 が追加されます。ライブラリの依存関係もある場合は、そのパーソナル化手順でさらに 30 秒から 5 分を追加できます。

潜在的な開始時刻を示すシナリオ例をいくつか次に示します。

シナリオ	一般的な起動時間
既定の設定、ライブラリなし	5 ~ 10 秒
既定の設定とライブラリの依存関係	5 ~ 10 秒 + 30 秒 – 5 分 (ライブラリのセットアップ用)
リージョン内のトラフィックが多く、ライブラリがない	2 ~ 5 分
トラフィックが多い + ライブラリの依存関係	2 ~ 5 分 + 30 秒 – 5 分 (ライブラリの場合)
ネットワークセキュリティ (プライベートリンク/VNet)、ライブラリなし	2 ~ 5 分
ネットワークセキュリティとライブラリの依存関係	2 ~ 5 分 + 30 秒 – 5 分 (ライブラリの場合)

課金と容量消費については、ノートブックまたは Apache Spark ジョブ定義の実行を始めると、容量消費に対して課金されます。クラスターがプール内でアイドル状態になっている間は課金されません。

たとえば、ノートブックジョブをスタータープールに送信する場合は、ノートブックセッションがアクティブな期間に対してのみ課金されます。課金される時間には、アイドル時間や、Spark コンテキストでセッションを個人設定するためにかかった時間は含まれません。詳細については、 Fabric でスタータープールを構成する方法を参照してください。

Spark プール

Spark プールは、データ分析タスクに必要なリソースの種類を Spark に伝える方法です。 Spark プールに名前を付け、ノード (作業を行うマシン) の数とサイズを選択できます。作業量に応じてノードの数を調整する方法を Spark に指示することもできます。 Spark プールの作成は無料です。課金されるのは、プールで Spark ジョブを実行し、Spark によってノードが設定されたときのみです。

セッションの有効期限が切れた後に Spark プールを 2 分間使用しない場合、Spark プールの割り当ては解除されます。この既定のセッション有効期限は 20 分に設定されていて、必要に応じて変更できます。ワークスペース管理者の場合は、ワークスペースのカスタム Spark プールを作成し、それを他のユーザーの既定のオプションにすることもできます。これにより、ノートブックまたは Spark ジョブを実行するたびに新しい Spark プールを設定することを回避できるため、時間を節約できます。 Spark は Azure からノードを取得する必要があるため、カスタム Spark プールの起動には約 3 分かかります。

ノードの最小数を 1 に設定することで、単一ノードの Spark プールを作成することもでき、ドライバーと Executor は、復元可能な HA に付属する、小規模なワークロードに適した単一ノードで実行されます。

カスタム Spark プールに含めることができるノードのサイズと数は、Microsoft Fabric の容量によって異なります。容量は、Azure で使用できるコンピューティング能力の量の尺度です。 1 つの考え方として、2個の Apache Spark 仮想コア (Spark のコンピューティング能力の単位) が 1 容量ユニットに等しいということがあります。

注

Apache Spark では、ユーザーは SKU の一部として予約するすべての容量ユニットに対して 2 つの Apache Spark 仮想コアを取得します。 1 つの容量ユニット = 2 つの Spark 仮想コア。F64 => 128 個の Spark 仮想コアがあり、3 倍のバースト乗数が適用され、合計で 384 個の Spark 仮想コアが提供されます

たとえば、Fabric の容量 SKU F64 には 64 容量ユニットがあり、これは 384 個の Spark 仮想コア (64 * 2 * 3X バースト倍率) に相当します。 Spark 仮想コアの合計数が 384 を超えない限り、これらの Spark 仮想コアを使用して、カスタム Spark プール用にさまざまなサイズのノードを作成できます。

Spark プールは、スタータープールと同様に課金されます。ノートブックまたは Spark ジョブ定義を実行するためにアクティブな Spark セッションを作成しない限り、作成したカスタム Spark プールについて支払うことはありません。ジョブの実行期間中にのみ課金されます。クラスターの作成やジョブ完了後の割り当て解除などのステージに対しては課金されません。

たとえば、ノートブックジョブをカスタム Spark プールに送信する場合は、セッションがアクティブな期間に対してのみ課金されます。 Spark セッションが停止するか期限切れになると、そのノートブックセッションの課金は停止します。クラウドからのクラスターインスタンスの取得にかかった時間、または Spark コンテキストの初期化にかかった時間には課金されません。

前の例に基づいて、F64 で使用できるカスタムプール構成。ノードサイズが小さいほど、容量はより多くのノードに分散されるため、ノードの最大数が多くなります。大規模なノードはリソースが豊富であるため、必要なノードは少なくなります。

Fabric の容量 SKU	容量ユニット	バースト係数を使用した最大 Spark 仮想コア数	ノードサイズ	ノードの最大数
F64	64	384	小さい	96
F64	64	384	ミディアム	48
F64	64	384	大きい	二十四
F64	64	384	X-Large	12
F64	64	384	極大	6

注

カスタムプールを作成するには、ワークスペースの管理者アクセス許可が必要です。また、Microsoft Fabric 容量管理者がワークスペース管理者に対して、カスタム Spark プールのサイズを変更できるアクセス許可を付与する必要があります。詳細については、「Fabric でのカスタム Spark プールの概要」を参照してください。

ノード

Apache Spark プールインスタンスは、1 つのヘッドノードとワーカーノードで構成され、1 つの Spark インスタンスに最低 1 つのノードから開始できます。ヘッドノードは、Livy、Yarn Resource Manager、Zookeeper、Apache Spark ドライバーなどの追加の管理サービスを実行します。すべてのノードは、Node Agent や Yarn Node Manager などのサービスを実行します。すべてのワーカーノードは、Apache Spark Executor サービスを実行します。

注

Fabric では、Executor に対するノードの比率は常に 1:1 です。プールを設定すると、1 つのノードがドライバー専用になり、残りのノードが Executor に使用されます。唯一の例外は、ドライバーと Executor の両方のリソースが半分になる単一ノード構成です。

ノードのサイズ

Spark プールは、小規模コンピューティングノード (4 つの仮想コアと 32 GB のメモリ) から、超大規模コンピューティングノード (ノードあたり 64 の仮想コアと 512 GB のメモリ) まで、さまざまなノードサイズで定義できます。ノードのサイズはプールの作成後に変更できますが、アクティブなセッションの再起動が必要になる場合があります。

[サイズ]	仮想コア	メモリ
小さい	4	32 GB
ミディアム	8	64 GB
大きい	16	128 GB
X-Large	32	256 GB
極大	64	512ギガバイト (GB)

注

ノードサイズ X-Large および XX-Large は、非試用版 Fabric SKU でのみ許可されます。

自動スケーリング

Apache Spark プール用の自動スケーリングでは、アクティビティの量に基づいてコンピューティングリソースを自動的にスケールアップおよびスケールダウンすることができます。自動スケーリング機能を有効にするときに、スケーリングするノードの最小数と最大数を設定します。自動スケーリング機能を無効にしても、設定されているノード数は固定されたままになります。この設定はプールの作成後に変更できますが、インスタンスの再起動が必要になる場合があります。

注

デフォルトでは、spark.yarn.executor.decommission.enabled は true に設定されており、使用率の低いノードの自動シャットダウンを有効にしてコンピューティング効率を最適化します。あまり積極的なスケールダウンが推奨されていない場合は、この構成を false に設定できます。

動的割り当て

動的割り当てを使用すると、タスクが現在の Executor が負担できる負荷を超えた場合に、Apache Spark アプリケーションがより多くの Executor を要求できます。また、ジョブが完了したとき、および Spark アプリケーションがアイドル状態に移行している場合は、Executor を解放します。 Executor の構成は、Spark ジョブ実行プロセスのさまざまなステージで大きく異なるため、エンタープライズユーザーが調整するのが難しいことがよくあります。これらの構成は、処理されるデータの量にも依存します。これは、随時変化します。ユーザーは、プールの構成の一部として、Executor の動的割り当てオプションを有効にできます。これにより、Spark プールで使用可能なノードに基づく Spark アプリケーションへの Executor の自動割り当てが有効になります。

送信されるすべての Spark アプリケーションに対して動的割り当てオプションを有効にすると、システムはジョブ送信ステップの間に最小ノードに基づいて Executor を予約します。自動スケーリングが正常に機能するように最大ノード数を指定します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-07-03

次の方法で共有