ジョブのコンピューティングを構成する

[アーティクル]
10/14/2024

この記事には、Databricks ジョブのコンピューティングを構成するための推奨事項とリソースが含まれています。

重要

ジョブのサーバーレスコンピューティングには次のような制限事項があります。

継続的スケジューリングはサポートされません。
構造化ストリーミングでは、既定または時間ベースの間隔トリガーはサポートされません。

制限事項の詳細については、「サーバーレスコンピューティングの制限事項」を参照してください。

各ジョブには、1 つ以上のタスクを含めることができます。各タスクのコンピューティングリソースを定義します。同じジョブに対して定義された複数のタスクで、同じコンピューティングリソースを使用できます。

複数のタスクを含むジョブと、関連付けられたクラウドコンピューティングリソースを示す画像

各タスクに推奨されるコンピューティングは何ですか?

次の表は、各タスクの種類に対して推奨されるコンピューティングの種類とサポートされているコンピューティングの種類を示しています。

Note

ジョブのサーバーレスコンピューティングには制限があり、すべてのワークロードをサポートしているわけではありません。「サーバーレスコンピューティングの制限事項」を参照してください。

タスク	推奨されるコンピューティング	サポートされているコンピューティング
ノートブック	サーバーレスジョブ	サーバーレスジョブ、クラシックジョブ、クラシック汎用
Python スクリプト	サーバーレスジョブ	サーバーレスジョブ、クラシックジョブ、クラシック汎用
Python ホイール	サーバーレスジョブ	サーバーレスジョブ、クラシックジョブ、クラシック汎用
SQL	サーバーレス SQL ウェアハウス	サーバーレス SQL ウェアハウス、プロ SQL ウェアハウス
Delta Live Tables パイプライン	サーバーレスパイプライン	サーバーレスパイプライン、クラシックパイプライン
dbt	サーバーレス SQL ウェアハウス	サーバーレス SQL ウェアハウス、プロ SQL ウェアハウス
dbt CLI コマンド	サーバーレスジョブ	サーバーレスジョブ、クラシックジョブ、クラシック汎用
JAR	クラシックジョブ	クラシックジョブ、クラシック汎用
Spark Submit	クラシックジョブ	クラシックジョブ

ジョブの価格は、タスクの実行に使用されるコンピューティングに関連付けられています。詳細については、「Databricks の価格」を参照してください。

ジョブのコンピューティングはどのように構成しますか?

クラシックジョブコンピューティングは Databricks ジョブ UI から直接構成できます。これらの構成はジョブ定義の一部となります。その他の使用可能なコンピューティングの種類はすべて、その構成を他のワークスペースアセットと共に格納します。次の表に詳細を示します。

コンピューティングの種類	詳細
クラシックジョブコンピューティング	汎用コンピューティングで使用できるのと同じ UI と設定を使用して、クラシックジョブのコンピューティングを構成します。「コンピューティング構成リファレンス」を参照してください。
ジョブのサーバーレスコンピューティング	サーバーレスコンピューティングは、対応するすべてのタスクにおいて既定の計算方法です。 Databricks がサーバーレスコンピューティングのコンピューティング設定を管理します。「ワークフローでサーバーレスコンピューティングを使用して Azure Databricks ジョブを実行する」を参照してください。 nn このオプションを表示するには、ワークスペース管理者がサーバーレスコンピューティングを有効にする必要があります。「サーバーレスコンピューティングを有効にする」をご覧ください。
SQL ウェアハウス	サーバーレスおよびプロ SQL ウェアハウスは、無制限のクラスター作成特権を持つワークスペース管理者またはユーザーによって構成されます。既存の SQL ウェアハウスに対して実行するタスクを構成します。「SQL ウェアハウスに接続する」を参照してください。
Delta Live Tables パイプラインコンピューティング	パイプラインの構成中に Delta Live Tables パイプラインのコンピューティング設定を構成します。「コンピューティング設定を構成する」をご覧ください。 nn Azure Databricks は、サーバーレス Delta Live Tables パイプラインのコンピューティングリソースを管理します。「サーバーレスコンピューティングで Delta Live Tables を使用してフルマネージドパイプラインを作成する」を参照してください。
All-Purpose Compute	必要に応じて、クラシック汎用コンピューティングを使用してタスクを構成できます。 Databricks では、運用環境の場合、この構成はお勧めしません。「コンピューティング構成リファレンス」と「ジョブには常に汎用コンピューティングを使用した方がよいでしょうか?」を参照してください。

複数のタスクのオーケストレーションを行うジョブでリソースの使用量を最適化するために、同じジョブコンピューティングリソースを使用するようにタスクを構成します。タスク間でコンピューティングを共有すると、起動時間に関連する待機時間を短縮できます。

1 つのジョブコンピューティングリソースを使用して、ジョブの一部であるすべてのタスク、または特定のワークロード用に最適化された複数のジョブリソースを実行できます。ジョブの一部として構成されたジョブコンピューティングは、ジョブ内の他のすべてのタスクで使用できます。

次の表は、1 つのタスク用に構成されたジョブコンピューティングと、タスク間で共有されるジョブコンピューティングの違いを示しています。

	1 つのタスク	タスク間で共有
Start	タスクの実行が開始されたとき。	コンピューティングリソースを使用するように構成された最初のタスクの実行が開始されたとき。
Terminate	タスクの実行後。	コンピューティングリソースを使用するように構成された最後のタスクが実行された後。
アイドル状態のコンピューティング	該当なし。	コンピューティングリソースを使用していないタスクの実行中も、コンピューティングはオンのままでアイドル状態になります。

共有ジョブクラスターのスコープは 1 つのジョブ実行に設定され、同じジョブの他のジョブまたは実行では使用できません。

ライブラリを共有ジョブクラスター構成で宣言することはできません。依存ライブラリはタスク設定に追加する必要があります。

ジョブコンピューティングを確認、構成、およびスワップする

[ジョブの詳細] パネルの [コンピューティング] セクションには、現在のジョブのタスク用に構成されているすべてのコンピューティングが一覧表示されます。

コンピューティング仕様にマウスポインターを合わせると、コンピューティングリソースを使用するように構成されたタスクがタスクグラフで強調表示されます。

[スワップ] ボタンを使用して、コンピューティングリソースに関連付けられているすべてのタスクのコンピューティングを変更します。

クラシックジョブコンピューティングリソースには、構成オプションがあります。その他のコンピューティングリソースには、コンピューティング構成の詳細を表示および変更するためのオプションがあります。

クラシックジョブコンピューティングの構成に関する推奨事項

このセクションでは、一部のワークフローに役立つ機能と構成に関する一般的な推奨事項について説明します。コンピューティングリソースのサイズと種類を構成するための具体的な推奨事項は、ワークロードによって異なります。

Databricks では、Photon Acceleration を有効にし、最新の Databricks Runtime バージョンを使用し、Unity カタログ用に構成されたコンピューティングを使用することをお勧めします。

ジョブのサーバーレスコンピューティングでは、以下の事項を考慮しなくてもよいように、すべてのインフラストラクチャが管理されます。「ワークフローでサーバーレスコンピューティングを使用して Azure Databricks ジョブを実行する」を参照してください。

Note

構造化ストリーミングワークフローには、特定の推奨事項があります。「構造化ストリーミングの運用に関する考慮事項」を参照してください。

共有アクセスモードを使用する

Databricks では、ジョブに共有アクセスモードを使用することをお勧めします。「アクセスモード」を参照してください。

Note

共有アクセスモードでは、一部のワークロードと機能はサポートされていません。 Databricks では、これらのワークロードに単一ユーザーアクセスモードをお勧めします。 Unity Catalog のコンピューティングアクセスモードの制限事項に関する記事を参照してください。

クラスターポリシーの使用

Databricks では、ワークスペース管理者がジョブのクラスターポリシーを定義し、ジョブの構成を行うすべてのユーザーに対してこれらのポリシーを適用することをお勧めします。

クラスターポリシーを使用すると、ワークスペース管理者はコスト制御を設定し、ユーザーの構成オプションを制限できます。クラスターポリシー構成の詳細については、「コンピューティングポリシーの作成と管理」を参照してください。

Azure Databricks には、ジョブ用に構成された既定のポリシーが用意されています。管理者は、このポリシーを他のワークスペースユーザーが使用できるようにできます。「ジョブコンピューティング」を参照してください。

自動スケーリングを使用する

実行時間の長いタスクがジョブの実行中にワーカーノードを動的に追加および削除できるように、自動スケールを構成します。「自動スケールの有効化」を参照してください。

プールを使用してクラスターの起動時間を短縮する

コンピューティングプールを使用すると、クラウドプロバイダーのコンピューティングリソースを予約できます。プールは、新しいジョブクラスターの開始時間を短縮し、コンピューティングリソースの可用性を確保するのに役立ちます。「プール構成リファレンス」を参照してください。

スポットインスタンスを使用する

コストを最適化するために待機時間の要件が緩いワークロードのスポットインスタンスを構成します。「スポットインスタンス」を参照してください。

ジョブには常に汎用コンピューティングを使用した方がよいでしょうか?

Databricks では、ジョブに汎用コンピューティングの使用を推奨しない理由が次のように多数あります。

Azure Databricks では、汎用コンピューティングに対してジョブコンピューティングとは異なるレートで課金されます。
ジョブコンピューティングは、ジョブの実行が完了すると自動的に終了します。汎用コンピューティングでは、自動終了がサポートされます。これは、ジョブの実行の終了ではなく、非アクティブに関連付けられています。
汎用コンピューティングは、多くの場合、ユーザーのチーム間で共有されます。多くの場合、汎用コンピューティングに対してスケジュールされたジョブは、コンピューティングリソースの競合により待機時間が長くなります。
ジョブコンピューティングの構成を最適化するための多くの推奨事項は、アドホッククエリの種類には適していません。また、対話型ワークロードは汎用コンピューティングで実行されます。

ジョブに対して汎用コンピューティングを使用する場合のユースケースを次に示します。

新しいジョブを繰り返し開発またはテストする場合。ジョブコンピューティングの起動に時間がかかるため、反復開発が面倒になる場合があります。汎用コンピューティングを使用すると、変更を適用してジョブをすばやく実行できます。
頻繁に実行したり、特定のスケジュールで実行したりする必要がある、短時間のジョブがある場合。現在実行中の汎用コンピューティングは、起動時間を必要としません。ただし、このパターンを使用する場合は、アイドル時間に関連するコストを考慮してください。

汎用コンピューティングで実行することが不適当と考えられるタスクの種類のほとんどについて、代替としてジョブのサーバーレスコンピューティングをお勧めします。

次の方法で共有

ジョブのコンピューティングを構成する

各タスクに推奨されるコンピューティングは何ですか?

ジョブのコンピューティングはどのように構成しますか?

ジョブコンピューティングを確認、構成、およびスワップする

クラシックジョブコンピューティングの構成に関する推奨事項

共有アクセスモードを使用する

クラスターポリシーの使用

自動スケーリングを使用する

プールを使用してクラスターの起動時間を短縮する

スポットインスタンスを使用する

ジョブには常に汎用コンピューティングを使用した方がよいでしょうか?

フィードバック

その他のリソース

次の方法で共有

ジョブのコンピューティングを構成する

各タスクに推奨されるコンピューティングは何ですか?

ジョブのコンピューティングはどのように構成しますか?

タスク間でコンピューティングを共有する

ジョブ コンピューティングを確認、構成、およびスワップする

クラシック ジョブ コンピューティングの構成に関する推奨事項

共有アクセス モードを使用する

クラスター ポリシーの使用

自動スケーリングを使用する

プールを使用してクラスターの起動時間を短縮する

スポット インスタンスを使用する

ジョブには常に汎用コンピューティングを使用した方がよいでしょうか?

フィードバック

その他のリソース

ジョブコンピューティングを確認、構成、およびスワップする

クラシックジョブコンピューティングの構成に関する推奨事項

共有アクセスモードを使用する

クラスターポリシーの使用

スポットインスタンスを使用する