MLOps スタックの宣言型オートメーションバンドル

GitHub の宣言型オートメーションバンドル、Databricks CLI、および Databricks MLOps Stack リポジトリを使用して 、MLOps スタックを作成できます。 MLOps スタックは、Azure Databricks 上の MLOps プロジェクトであり、そのままで運用環境のベストプラクティスに準じています。「宣言型オートメーションバンドルとは」を参照してください。

ここでは、MLOps Stacks バンドルプロジェクトを作成、デプロイ、および実行する方法を示します。

必要条件

ターゲットリモートワークスペースでワークスペースファイルが有効になっていることを確認します。「ワークスペースファイルとは」を参照してください。
お使いの開発用マシンに Databricks CLI バージョン 0.212.2 以降がインストールされていることを確認します。インストールされている Databricks CLI のバージョンを確認するには、databricks -v コマンドを実行します。 Databricks CLI バージョンを更新するには、「Databricks CLI のインストールまたは更新」を参照してください。 (バンドルは Databricks CLI バージョン 0.18 以前では機能しません)。

手順 1: 認証を設定する

認証用に Databricks CLI を構成します。

この記事では、OAuth ユーザー対マシン (U2M) 認証と、DEFAULT という名前の対応する Azure Databricks 構成プロファイルを認証に使用することを前提としています。

メモ

U2M 認証は、これらの手順をリアルタイムで試す場合に適しています。完全に自動化されたワークフローの場合、Databricks では代わりに OAuth マシン間 (M2M) 認証を使用することをお勧めします。 OAuth を使用した Azure Databricks へのサービスプリンシパルアクセスの承認に関するページの M2M 認証のセットアップ手順を参照してください。

Databricks CLI を使用して、ターゲットワークスペースごとに次のコマンドを実行し、OAuth トークン管理をローカルで開始します。

次のコマンド内では、<workspace-url> を Azure Databricks ワークスペース単位の URL (例: https://adb-1234567890123456.7.azuredatabricks.net) に置き換えます。
```
databricks auth login --host <workspace-url>
```
Databricks CLI では、入力した情報を Azure Databricks 構成プロファイルとして保存するように求められます。 Enter キーを押して提案されたプロファイル名を受け入れるか、新規または既存のプロファイル名を入力します。同じ名前の既存のプロファイルは、入力した情報で上書きされます。プロファイルを使用すると、複数のワークスペース間で認証コンテキストをすばやく切り替えることができます。

既存のプロファイルの一覧を取得するには、別のターミナルまたはコマンドプロンプト内で、Databricks CLI を使用してコマンド databricks auth profiles を実行します。特定のプロファイルの既存の設定を表示するには、コマンド databricks auth env --profile <profile-name>を実行します。
Web ブラウザー内で、画面の指示に従って Azure Databricks ワークスペースにログインします。
プロファイルの現在の OAuth トークン値とトークンの今後の有効期限のタイムスタンプを表示するには、次のいずれかのコマンドを実行します。
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
同じ --host 値を持つ複数のプロファイルがある場合は、Databricks CLI が正しく一致する OAuth トークン情報を見つけるのに役立つ --host と -p のオプションを一緒に指定することが必要になる場合があります。

手順 2: バンドルプロジェクトを作成する

バンドルテンプレートを使用して、MLOps Stacks プロジェクトのスターターファイルを作成します。これを行うには、まず次のコマンドを実行します。
```
databricks bundle init mlops-stacks
```
画面のプロンプトに回答します。これらのプロンプトへの回答に関するガイダンスについては、GitHub 上の Databricks MLOps Stacks リポジトリにある新しいプロジェクトの開始に関するセクションを参照してください。

最初のプロンプトには、ML コードコンポーネント、CI/CD コンポーネント、またはその両方を設定するオプションが表示されます。このオプションを使用すると、直接関連するコンポーネントのみを作成できるため、初期セットアップが簡略化されます (他のコンポーネントを設定するには、初期化コマンドをもう一度実行します)。次のいずれかを選択してください。
- CICD_and_Project (既定値) - ML コードと CI/CD コンポーネントの両方を設定します。
- Project_Only - ML コードコンポーネントのみを設定します。このオプションは、データサイエンティストが作業を開始するためのものです。
- CICD_Only - CI/CD コンポーネントのみを設定します。このオプションは、ML エンジニアがインフラストラクチャを設定するためのものです。
画面上のすべてのプロンプトに応答すると、テンプレートによって MLOps Stacks プロジェクトのスターターファイルが作成され、現在の作業ディレクトリに追加されます。

MLOps Stacks プロジェクトのスターターファイルを必要に応じてカスタマイズします。これを行うには、新しいプロジェクト内の次のファイルにあるガイダンスに従います。

役割	目標	ドキュメント
このリポジトリを初めて利用するユーザー	このリポジトリの ML パイプラインとコード構造を理解する	`README.md`
データ科学者	まったく新しいプロジェクトに対する ML コードの記述を開始する	`<project-name>/README.md`
データ科学者	既存のプロジェクトの運用 ML コード (モデルトレーニングロジックなど) を更新する	`docs/ml-pull-request.md`
データ科学者	運用モデルの ML リソース (モデルトレーニングや推論ジョブなど) を変更する	`<project-name>/resources/README.md`
MLOps / DevOps	現在の ML プロジェクトに CI/CD を設定する	`docs/mlops-setup.md`

実験をカスタマイズする場合、実験宣言内のマッピングは、REST API リファレンスの POST /api/2.0/mlflow/experiments/create で定義されている実験作成操作の要求ペイロードに対応し、YAML 形式で表されます。
ジョブをカスタマイズする場合、ジョブ宣言内のマッピングは、REST API リファレンスの POST /api/2.1/jobs/create で定義されているジョブ作成操作の要求ペイロードに対応し、YAML 形式で表されます。

ヒント

「ターゲット設定でオーバーライドする」で説明されている手法を使用して、バンドル内の新しいジョブクラスターの設定を定義、結合、オーバーライドできます。
モデルをカスタマイズする場合、モデル宣言内のマッピングは、REST API リファレンスの POST /api/2.1/unity-catalog/models で定義されている Unity カタログモデルの作成操作の要求ペイロードに対応し、YAML 形式で表されます。
パイプラインをカスタマイズする場合、パイプライン宣言内のマッピングは、REST API リファレンスの POST /api/2.0/pipelines で定義されているパイプライン作成操作の要求ペイロードに対応し、YAML 形式で表されます。

手順 3: バンドルプロジェクトを検証する

バンドル構成が有効かどうかを確認します。これを行うには、次のように、 databricks.yml があるプロジェクトのルートから Databricks CLI を実行します。

databricks bundle validate

バンドル設定の概要が返されたら、検証が成功したことになります。エラーが返される場合は、エラーを修正してから、この手順を繰り返します。

手順 4: バンドルをデプロイする

プロジェクトのリソースと成果物を目的のリモートワークスペースにデプロイします。これを行うには、次のように、 databricks.yml があるプロジェクトのルートから Databricks CLI を実行します。

databricks bundle deploy -t <target-name>

<target-name> を、databricks.yml ファイル内の目的のターゲットの名前に置き換えます (dev、test、staging、prod など)。

手順 5: デプロイされたバンドルを実行する

プロジェクトのデプロイされたジョブは、定義済みのスケジュールに従って自動的に実行されます。デプロイされたジョブをすぐに実行するには、次のように、 databricks.yml があるプロジェクトのルートから Databricks CLI を実行します。

databricks bundle run -t <target-name> <job-name>

<target-name> を、ジョブがデプロイされた databricks.yml ファイル内の目的のターゲットの名前に置き換えます (dev、test、staging、prod など)。
<job-name> を、.yml 内にある <project-name>/databricks-resources ファイルのうちの 1 つのジョブ名に置き換えます (batch_inference_job、write_feature_table_job、model_training_job など)。

Azure Databricks ジョブへのリンクが表示されます。これを Web ブラウザーにコピーして、Azure Databricks UI 内でジョブを開くことができます。

手順 6: デプロイされたバンドルを削除する (省略可能)

デプロイされたプロジェクトのリソースと成果物が不要になった場合に削除するには、次のように、 databricks.yml があるプロジェクトのルートから Databricks CLI を実行します。

databricks bundle destroy -t <target-name>

<target-name> を、databricks.yml ファイル内の目的のターゲットの名前に置き換えます (dev、test、staging、prod など)。

画面上のプロンプトに回答して、以前にデプロイされたリソースと成果物の削除を確認します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-16