次の方法で共有


Microsoft Fabric の Apache Spark ワークスペース管理設定

適用対象: Microsoft Fabric のデータ エンジニアリングとデータ サイエンス

Microsoft Fabric でワークスペースを作成すると、そのワークスペースに関連付けられたスターター プールが自動的に作成されます。 Microsoft Fabric における簡易セットアップでは、ノードやマシンのサイズを選択する必要はありません。これらのオプションはバックグラウンドで設定されます。 この構成では、ユーザーがコンピューティングの設定を気にする必要がなく、多くの一般的なシナリオにおいて、初めて Apache Spark ジョブを使用し実行する際により迅速に (5 から 10 秒) Apache Spark セッションを開始できます。 特定のコンピューティング要件がある高度なシナリオの場合は、カスタム Apache Spark プールを作成し、パフォーマンスのニーズに基づいてノードのサイズを設定できます。

ワークスペースでの Apache Spark 設定を変更するには、そのワークスペースに対する管理者ロールが必要です。 詳しくは、「ワークスペースのロール」をご覧ください。

ワークスペースに関連付けられているプールの Spark 設定を管理するには:

  1. ワークスペースで [ワークスペースの設定] に移動し、[データ エンジニアリング/サイエンス] オプションを選択してメニューを展開します。

    [ワークスペースの設定] メニューで [データ エンジニアリング] を選択する場所を示すスクリーンショット。

  2. 左側のメニューに [Spark コンピューティング] オプションが表示されます。

    ワークスペース設定で Apache Spark コンピューティングのさまざまなセクションを示す Gif。

    Note

    既定のプールをスターター プールからカスタム Spark プールに変更すると、セッションの開始時間が長くなる (3 分程度) 場合があります。

プール

ワークスペースの既定のプール

自動的に作成されたスターター プールを使用することも、ワークスペースのカスタム プールを作成することもできます。

  • スターター プール: エクスペリエンスの高速化のために自動的に作成された、事前ハイドレートされたライブ プール。 これらのクラスターは中程度のサイズです。 スターター プールは、購入した Fabric の容量 SKU に基づいて、既定の構成に設定されます。 管理者は、Spark ワークロードのスケール要件に基づいて、最大ノードと Executor をカスタマイズできます。 詳細については、「スターター プールの構成」を参照してください。

  • カスタム Spark プール: ご自分の Spark ジョブ要件に基づいて、ノードのサイズ設定、自動スケーリング、Executor の動的割り当てができます。 カスタム Spark プールを作成するには、容量管理者が、[容量管理] 設定の [Spark コンピューティング] セクションで [カスタマイズされたワークスペース プール] オプションを有効にする必要があります。

Note

カスタマイズされたワークスペース プールの容量レベル制御は、既定で有効になっています。 詳細については、「Fabric 容量のデータ エンジニアリングとデータ サイエンスの設定を構成および管理する」を参照してください。

管理者は、[新しいプール] オプションを選択して、コンピューティング要件に基づいてカスタム Spark プールを作成できます。

カスタム プールの作成のオプションを示すスクリーンショット。

Microsoft Fabric の Apache Spark では、単一ノードのクラスターがサポートされています。そのため、ユーザーが、最小ノード構成である 1 (ドライバーと Executor が単一ノードで実行される) を選択できます。 これらの単一ノード クラスターでは、ノード障害が発生した場合に備えて、復元可能な高可用性が提供されます。また、コンピューティング要件が小さいワークロードの場合にジョブの信頼性が向上します。 カスタム Spark プールの自動スケーリング オプションを有効や無効にすることもできます。 自動スケーリングを有効にすると、プールで、ユーザーが指定した最大ノード制限の範囲内で新しいノードが取得され、パフォーマンス向上のために、ジョブの実行後にそれらが廃止されます。

パフォーマンスを高めるために、データ ボリュームに基づいて指定された最大バインドの範囲内で自動的に最適な数の Executor がプールされるように Executor を動的に割り当てるオプションを選択することもできます。

自動スケーリングと動的割り当てのためのカスタム プール作成オプションを示すスクリーンショット。

Fabric の Apache Spark コンピューティング について説明します。

  • アイテムのコンピューティング構成をカスタマイズ: ワークスペース管理者は、ユーザーがコンピューティング構成 (Driver/Executor Core、Driver/Executor Memory を含むセッション レベルのプロパティ) を、ノートブック、Spark ジョブ定義などの個々のアイテムに対して環境を使用して調整できるようにすることができます。

項目のコンピューティングをカスタマイズするためのスイッチを示すスクリーンショット。

ワークスペース管理者がこの設定をオフにすると、既定のプールとそのコンピューティング構成がワークスペース内のすべての環境に使用されます。

Environment

環境は、Spark ジョブ (ノートブック、Spark ジョブ定義) を実行するための柔軟な構成を提供します。 環境では、ワークロードの要件に基づいて、コンピューティング プロパティを構成し、別のランタイムを選択し、ライブラリ パッケージの依存関係を設定することができます。

"環境" タブには、既定の環境を設定するオプションがあります。 ワークスペースに使用する Spark のバージョンを選択できます。

Fabric ワークスペース管理者は、ワークスペースの既定の環境として環境を選択できます。

[環境] ドロップダウンから新しい環境を作成することもできます。

WS 設定の添付ファイル ドロップダウンを使用した環境の作成

既定の環境を使用するオプションを無効にする場合は、ドロップダウン選択に一覧表示されている使用可能なランタイム バージョンから Fabric ランタイム バージョンを選択するオプションがあります。

ランタイム バージョンを選択する場所を示すスクリーンショット。

Apache Spark ランタイムについて説明します。

高コンカレンシー

高コンカレンシー モードを使用すると、ユーザーは Fabric 用 Apache Spark のデータ エンジニアリングとデータ サイエンスのワークロードで同じ Spark セッションを共有できます。 ノートブックなどのアイテムは、その実行に Spark セッションを使用し、有効にすると、ユーザーは複数のノートブック間で 1 つの Spark セッションを共有できます。

高コンカレンシーのページを示すスクリーンショット。

Fabric 用 Apache Spark での高コンカレンシーについて説明します。

機械学習モデルと実験の自動ログ記録

管理者が機械学習モデルと実験の自動ログ記録を有効にできるようになりました。 このオプションを選択すると、トレーニング中の機械学習モデルの入力パラメータ、出力メトリック、出力項目の値が自動的に取得されます。 自動ログ記録の詳細を参照してください

自動ログ設定ページを示すスクリーンショット。