この記事では、運用ジョブ スケジューリングに関する明確で意見に基づくガイダンスを提供することを目的としています。 ベスト プラクティスを使用すると、コストの削減、パフォーマンスの向上、セキュリティの強化に役立ちます。
ベスト プラクティス | 影響 | ドキュメント |
---|---|---|
自動化されたワークフローにジョブ クラスターを使用する | コスト: ジョブ クラスターは、対話型クラスターよりも低い料金で課金されます。 | |
実行時間の長いクラスターを再起動する | セキュリティ: クラスターを再起動して、Databricks ランタイムに対する修正プログラムとバグ修正を利用します。 | |
ユーザー アカウントの代わりにサービス プリンシパルを使用して運用ジョブを実行する | セキュリティ: ジョブが個々のユーザーによって所有されている場合、それらのユーザーが組織を離れると、これらのジョブの実行が停止する可能性があります。 | |
可能な限り、オーケストレーションに Lakeflow ジョブを使用する | コスト: Azure Databricks でワークロードを調整するだけの場合は、外部ツールを使用して調整する必要はありません。 | |
最新の LTS バージョンの Databricks Runtime を使用する | パフォーマンスとコスト: Azure Databricks は、使いやすさ、パフォーマンス、セキュリティのために Databricks Runtime を常に改善しています。 | |
運用データを DBFS ルートに格納しない | セキュリティ: データが DBFS ルートに保存されている場合、すべてのユーザーがそれにアクセスできます。 |