機械学習の操作

2024-07-22

この記事では、エンドツーエンドの継続的インテグレーションと継続的デリバリー (CI/CD) パイプラインと再トレーニングパイプラインを備えた機械学習操作用の 3 つの Azure アーキテクチャについて説明します。これらのアーキテクチャは、以下の AI アプリケーションに適しています。

古典的機械学習
コンピュータービジョン (CV)
自然言語処理

これらのアーキテクチャは MLOps v2 プロジェクトの成果です。これらには、ソリューションアーキテクトがさまざまな機械学習ソリューションを開発するプロセスで特定したベストプラクティスが組み込まれています。結果として、デプロイ可能で、反復可能で、保守のしやすいパターンが得られました。これらすべてのアーキテクチャで Azure Machine Learning service を使用します。

MLOps v2 のサンプルデプロイテンプレートを使用した実装については、 Azure MLOps v2 GitHub リポジトリを参照してください。

考えられるユースケース

従来の機械学習: 表形式の構造化データに対する時系列予測、回帰、分類は、このカテゴリの最も一般的なユースケースです。以下に例を示します。
- 二項分類とマルチラベル分類。
- 線形、多項式、リッジ、ラッソ、分位点、ベイズ回帰。
- ARIMA、自己回帰、SARIMA、VAR、SES、LSTM。
CV: この記事で提示する MLOps フレームワークでは、主にセグメント化と画像分類の CV ユースケースに焦点を当てています。
自然言語処理: 次の MLOps フレームワークを使用して実装できます。
- 名前付きエンティティの認識
- テキスト分類
- テキスト生成
- センチメント分析
- 翻訳
- 質問応答
- 概要
- 文検出
- 言語検出
- 品詞のタグ付け

AI シミュレーション、深層強化学習、その他の形式の AI については、この記事では説明しません。

AI ワークロードの主要な設計領域としての MLOps

MLOps と GenAIOps の計画と実装は、Azure 上の AI ワークロードの中核となる設計領域です。これらの機械学習ワークロードに特殊な操作が必要な理由の背景については、Azure Well-Architected Framework の Azure での AI ワークロード用の MLOps と GenAIOps のに関するページを参照してください。

建築

MLOps v2 アーキテクチャパターンには、MLOps ライフサイクルの 4 つの主要なモジュールコンポーネント (フェーズ) があります。

データ資産
管理と設定
モデル開発、または内部ループフェーズ
モデルデプロイ、または外部ループフェーズ

前述のコンポーネント、それらの間の接続、および関連する一般的なペルソナは、すべての MLOps v2 シナリオアーキテクチャで標準です。各コンポーネントの詳細はシナリオによって異なります。

機械学習向けの MLOps v2 の基本アーキテクチャは、表形式データに対する従来の機械学習のシナリオです。 CV および NLP アーキテクチャは、この基本アーキテクチャをベースに改変を加えたものです。

MLOps v2 では、この記事で説明する次のアーキテクチャについて説明します。

古典的機械学習アーキテクチャ
Machine Learning CV アーキテクチャ
機械学習の自然言語処理アーキテクチャ

古典的機械学習アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

古典的機械学習アーキテクチャのワークフロー

データ資産

このコンポーネントは、組織のデータ資産と、データサイエンスプロジェクトにおけるデータの潜在的なソースとターゲットを示しています。データエンジニアは、MLOps v2 ライフサイクルのこのコンポーネントの主な所有者です。この図の Azure データプラットフォームは、網羅的でも規範的でもありません。緑色のチェックマークは、お客様のユースケースに基づいて推奨されるベストプラクティスを表すデータソースとターゲットを示します。
管理と設定

このコンポーネントは、MLOps v2 ソリューションのデプロイの最初の手順です。プロジェクトに関連付けられたリソースとロールの作成と管理に関連するすべてのタスクで構成されています。たとえば、インフラストラクチャチームは次のことを行います。
1. プロジェクトソースコードリポジトリを作成します。
2. Bicep または Terraform を使用して Machine Learning ワークスペースを作成します。
3. モデルの開発とデプロイのためのデータセットとコンピューティングリソースを作成または変更します。
4. プロジェクトチームユーザー、各ユーザーのロール、他のリソースへのアクセス制御を定義します。
5. CI/CD パイプラインを作成します。
6. 監視コンポーネントを作成して、モデルとインフラストラクチャのメトリックのアラートを収集して作成します。
このフェーズに関連する主なペルソナはインフラストラクチャチームですが、組織にはデータエンジニア、機械学習エンジニア、データサイエンティストがいる場合もあります。
モデル開発 (内部ループフェーズ)

内部ループフェーズは、セキュリティで保護された専用の Machine Learning ワークスペース内で作用する、反復的なデータサイエンスワークフローで構成されます。上の図は、一般的なワークフローを示しています。このプロセスはデータインジェストから始まり、探索的データ分析、実験、モデルの開発と評価を経て、本番環境で使用するモデルを登録します。このモジュール式コンポーネントは、データサイエンスチームがモデルの開発に使用するプロセスに依存せず、適応可能です。

このフェーズに関連するペルソナには、データサイエンティストと機械学習エンジニアが含まれます。
Machine Learning レジストリ

データサイエンスチームは、本番環境にデプロイできるモデルを開発した後、そのモデルを Machine Learning ワークスペースレジストリに登録します。モデル登録によって自動的に、または人間参加型のゲート承認によってトリガーされる CI パイプラインにより、モデルと、その他のモデル依存関係がモデルデプロイフェーズに昇格します。

このステージに関連するペルソナは通常、機械学習エンジニアです。
モデルデプロイ (外部ループフェーズ)

モデルデプロイまたは外部ループフェーズを構成するのは、運用環境のステージングとテスト、運用環境へのデプロイ、そして、モデル、データ、インフラストラクチャの監視です。モデルが組織とユースケースの基準を満たすと、CD パイプラインは、モデルと関連資産をプロダクション、監視、および潜在的な再トレーニングを通じて促進します。

このフェーズに関連するペルソナは、主に機械学習エンジニアです。
ステージングとテスト

ステージングとテストのフェーズは、お客様のプラクティスによって異なります。このフェーズには、通常、運用データに対するモデル候補の再トレーニングとテスト、エンドポイントパフォーマンスのためのテストデプロイ、データ品質チェック、単体テスト、モデルとデータの偏りに関しての責任ある AI チェックなどのオペレーションが含まれます。このフェーズは、セキュリティで保護された 1 つ以上の専用の Machine Learning ワークスペースで行われます。
運用環境へのデプロイ

モデルがステージングとテストのフェーズに合格すると、機械学習エンジニアは、人間参加型のゲート承認を使用して運用環境に昇格させることができます。モデルデプロイオプションには、バッチシナリオ用のマネージドバッチエンドポイント、またはオンラインのほぼリアルタイムのシナリオ用の Azure Arc を使用するマネージドオンラインエンドポイントまたは Kubernetes デプロイが含まれます。通常、運用は 1 つ以上の専用の安全な Machine Learning ワークスペースで行われます。
監視

機械学習エンジニアは、ステージング、テスト、本番環境のコンポーネントを監視して、モデル、データ、インフラストラクチャのパフォーマンスの変化に関連するメトリックを収集します。これらのメトリックを使用してアクションを実行できます。モデルとデータの監視には、モデルやデータドリフトのチェック、新しいデータに対するモデルのパフォーマンス、責任ある AI の問題などが含まれる場合があります。インフラストラクチャの監視では、低速なエンドポイント応答、コンピューティング容量の不足、またはネットワークの問題を特定できます。
データとモデルの監視: イベントとアクション

自動化されたトリガーと通知では、メトリックのしきい値やスケジュールなど、モデルとデータの懸念事項に関する基準に基づいて、実行する適切なアクションを実装できます。たとえば、トリガーは、新しい運用データを使用するようにモデルを再トレーニングし、その後、本番前の評価のためにモデルをステージングとテストにループバックする場合があります。あるいは、モデルまたはデータの問題によって、データサイエンティストが問題を調査し、場合によっては新しいモデルを開発できるモデル開発フェーズへのループバックを必要とするアクションがトリガーされる可能性があります。
インフラストラクチャの監視: イベントとアクション

自動化されたトリガーと通知により、エンドポイントの応答遅延やデプロイのコンピューティング不足などのインフラストラクチャ基準に基づいて、適切なアクションを実装できます。自動トリガーと通知により、セットアップと管理フェーズへのループバックがトリガーされ、インフラストラクチャチームが問題を調査し、コンピューティングリソースとネットワークリソースを再構成できる場合があります。

Machine Learning CV アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

CV アーキテクチャのワークフロー

Machine Learning CV アーキテクチャは従来の機械学習アーキテクチャに基づいていますが、教師あり CV シナリオに特有の変更が加えられています。

データ資産

このコンポーネントは、組織のデータ資産と、データサイエンスプロジェクトにおけるデータの潜在的なソースとターゲットを示しています。データエンジニアは、MLOps v2 ライフサイクルのこのコンポーネントの主な所有者です。この図の Azure データプラットフォームは、網羅的でも規範的でもありません。 CV シナリオの画像は、さまざまなデータソースに由来する可能性があります。機械学習を使用して CV モデルを開発およびデプロイする場合の効率を高めるために、Azure データソースとしては Azure Blob Storage と Azure Data Lake Storage を推奨しています。
管理と設定

このコンポーネントは、MLOps v2 デプロイの最初の手順です。プロジェクトに関連付けられたリソースとロールの作成と管理に関連するすべてのタスクで構成されています。 CV シナリオの場合、MLOps v2 環境の管理とセットアップは、従来の機械学習の場合とほとんど同じですが、追加の手順が含まれます。インフラストラクチャチームは、機械学習または別のツールのラベル付け機能を使用して、画像のラベル付けと注釈プロジェクトを作成します。
モデル開発 (内部ループフェーズ)

内部ループフェーズは、セキュリティで保護された専用の Machine Learning ワークスペース内で作用する、反復的なデータサイエンスワークフローで構成されます。このワークフローと古典的機械学習シナリオの主な違いは、画像のラベル付けと注釈がこの開発ループの重要なコンポーネントであるという点です。
Machine Learning レジストリ

データサイエンスチームは、本番環境にデプロイできるモデルを開発した後、そのモデルを Machine Learning ワークスペースレジストリに登録します。モデル登録時に自動で、または人間が関与するゲート承認によってトリガーされる CI パイプラインにより、モデルおよびその依存関係がモデル展開フェーズに移行します。
モデルデプロイ (外部ループフェーズ)

モデルデプロイまたは外部ループフェーズを構成するのは、運用環境のステージングとテスト、運用環境へのデプロイ、そして、モデル、データ、インフラストラクチャの監視です。モデルが組織とユースケースの基準を満たすと、CD パイプラインは、モデルと関連資産をプロダクション、監視、および潜在的な再トレーニングを通じて促進します。
ステージングとテスト

ステージングとテストのフェーズは、お客様のプラクティスによって異なります。このフェーズには、通常は、エンドポイントパフォーマンスのためのテストデプロイ、データ品質チェック、単体テスト、モデルとデータの偏りに関しての責任ある AI チェックなどのオペレーションが含まれます。 CV シナリオの場合、リソースと時間の制約により、機械学習エンジニアはモデル候補を運用データで再トレーニングする必要がありません。データサイエンスチームは、代わりにモデル開発に運用データを使用できます。開発ループから登録された候補モデルは、運用環境で評価されます。このフェーズは、セキュリティで保護された 1 つ以上の専用の Machine Learning ワークスペースで行われます。
運用環境へのデプロイ

モデルがステージングとテストのフェーズに合格すると、機械学習エンジニアは、人間参加型のゲート承認を使用して運用環境に昇格させることができます。モデルデプロイオプションには、バッチシナリオ用のマネージドバッチエンドポイント、またはオンラインのほぼリアルタイムのシナリオ用の Azure Arc を使用するマネージドオンラインエンドポイントまたは Kubernetes デプロイが含まれます。通常、運用は 1 つ以上の専用の安全な Machine Learning ワークスペースで行われます。
監視

機械学習エンジニアは、ステージング、テスト、本番環境のコンポーネントを監視して、モデル、データ、インフラストラクチャのパフォーマンスの変化に関連するメトリックを収集します。これらのメトリックを使用してアクションを実行できます。モデルとデータの監視には、新しい画像に対するモデルのパフォーマンスのチェックを含めることができます。インフラストラクチャの監視では、低速なエンドポイント応答、コンピューティング容量の不足、またはネットワークの問題を特定できます。
データとモデルの監視: イベントとアクション

自然言語処理向けの MLOps で、従来の機械学習との重要な違いは、データとモデルモニタリング、およびイベントとアクションのフェーズです。 CV シナリオでは通常、新しい画像に対してモデルのパフォーマンスの低下が検出されても、自動再トレーニングは行われません。この場合、パフォーマンスが低いモデルの新しいイメージを確認して注釈を付けるために、人間がループ内で処理する必要があります。次のアクションでは、多くの場合、モデル開発ループに戻り、新しい画像でモデルを更新します。
インフラストラクチャの監視: イベントとアクション

自動化されたトリガーと通知により、エンドポイントの応答遅延やデプロイのコンピューティング不足などのインフラストラクチャ基準に基づいて、適切なアクションを実装できます。自動トリガーと通知により、セットアップと管理フェーズへのループバックがトリガーされ、インフラストラクチャチームが問題を調査し、環境、コンピューティングリソース、ネットワークリソースを再構成できる場合があります。

Machine Learning の自然言語処理アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

自然言語処理アーキテクチャのワークフロー

Machine Learning 自然言語処理アーキテクチャは従来の機械学習アーキテクチャに基づいていますが、NLP シナリオに特有の変更がいくつか加えられています。

データ資産

このコンポーネントは、組織のデータ資産と、データサイエンスプロジェクトにおけるデータの潜在的なソースとターゲットを示しています。データエンジニアは、MLOps v2 ライフサイクルのこのコンポーネントの主な所有者です。この図の Azure データプラットフォームは、網羅的でも規範的でもありません。緑色のチェックマークは、顧客のユースケースに基づいて推奨されるベストプラクティスを表すデータソースとターゲットを示します。
管理と設定

このコンポーネントは、MLOps v2 デプロイの最初の手順です。プロジェクトに関連付けられたリソースとロールの作成と管理に関連するすべてのタスクで構成されています。自然言語処理シナリオの場合、MLOps v2 環境の管理とセットアップは従来の機械学習の場合とほとんど同じですが、追加の手順として、Machine Learning または別のツールのラベル付け機能を使用してテキストラベル付けと注釈プロジェクトを作成します。
モデル開発 (内部ループフェーズ)

内部ループフェーズは、セキュリティで保護された専用の Machine Learning ワークスペース内で作用する、反復的なデータサイエンスワークフローで構成されます。一般的な NLP モデル開発ループは、このシナリオの一般的な開発手順に文の注釈とテキストデータのトークン化、正規化、埋め込みが含まれるという点で、従来の機械学習シナリオとは異なります。
Machine Learning レジストリ

データサイエンスチームは、本番環境にデプロイできるモデルを開発した後、そのモデルを Machine Learning ワークスペースレジストリに登録します。モデル登録時に自動で、または人間が関与するゲート承認によってトリガーされる CI パイプラインにより、モデルおよびその依存関係がモデル展開フェーズに移行します。
モデルデプロイ (外部ループフェーズ)

モデルデプロイまたは外部ループフェーズを構成するのは、運用環境のステージングとテスト、運用環境へのデプロイ、そして、モデル、データ、インフラストラクチャの監視です。モデルが組織とユースケースの基準を満たすと、CD パイプラインは、モデルと関連資産をプロダクション、監視、および潜在的な再トレーニングを通じて促進します。
ステージングとテスト

ステージングとテストのフェーズは、お客様のプラクティスによって異なります。このフェーズには、通常、運用データに対するモデル候補の再トレーニングとテスト、エンドポイントパフォーマンスのためのテストデプロイ、データ品質チェック、単体テスト、モデルとデータの偏りに関しての責任ある AI チェックなどのオペレーションが含まれます。このフェーズは、セキュリティで保護された 1 つ以上の専用の Machine Learning ワークスペースで行われます。
運用環境へのデプロイ

モデルがステージングとテストのフェーズに合格すると、機械学習エンジニアは、人間参加型のゲート承認を使用して運用環境に昇格させることができます。モデルデプロイオプションには、バッチシナリオ用のマネージドバッチエンドポイント、またはオンラインのほぼリアルタイムのシナリオ用の Azure Arc を使用するマネージドオンラインエンドポイントまたは Kubernetes デプロイが含まれます。通常、運用は 1 つ以上の専用の安全な Machine Learning ワークスペースで行われます。
監視

機械学習エンジニアは、ステージング、テスト、本番環境のコンポーネントを監視して、モデル、データ、インフラストラクチャのパフォーマンスの変化に関連するメトリックを収集します。これらのメトリックを使用してアクションを実行できます。モデルとデータの監視には、モデルやデータドリフトのチェック、新しいテキストデータに対するモデルのパフォーマンス、責任ある AI の問題などが含まれる場合があります。インフラストラクチャの監視では、低速なエンドポイント応答、コンピューティング容量の不足、ネットワークなどの問題を特定できます。
データとモデルの監視: イベントとアクション

CV アーキテクチャと同様に、自然言語処理向けの MLOps で、古典的機械学習との重要な違いは、データとモデルモニタリング、およびイベントとアクションのフェーズです。自然言語処理シナリオでは通常、新しいテキストに対してモデルのパフォーマンスの低下が検出されても、自動再トレーニングは行われません。この場合、パフォーマンスが低いモデルの新しいテキストデータをレビューして注釈を付けるには、人間が関与するプロセスが必要です。多くの場合、モデル開発ループに戻り、新しいテキストデータを使用してモデルを更新することが次のアクションとなります。
インフラストラクチャの監視: イベントとアクション

自動化されたトリガーと通知により、エンドポイントの応答遅延やデプロイのコンピューティング不足などのインフラストラクチャ基準に基づいて、適切なアクションを実装できます。自動トリガーと通知により、セットアップと管理フェーズへのループバックがトリガーされ、インフラストラクチャチームが問題を調査し、コンピューティングリソースとネットワークリソースを再構成できる場合があります。

コンポーネント

Azure Machine Learning は、機械学習モデルの大規模なトレーニング、スコア、デプロイ、管理に使用できるクラウドサービスです。
Azure Pipelines は、このビルドおよびテストシステムは Azure DevOps に基づいており、ビルドおよびリリースパイプラインに使用されます。 Azure Pipelines ではこれらのパイプラインを タスクと呼ばれる論理的ステップに分割します。
GitHub は、バージョン管理、コラボレーション、CI/CD ワークフローのためのコードホスティングプラットフォームです。
Azure Arc は、Azure Resource Manager を使用して Azure リソースとオンプレミスリソースを管理するプラットフォームです。リソースには、仮想マシン、Kubernetes クラスター、およびデータベースを含めることができます。
Kubernetes は、コンテナ化されたアプリケーションのデプロイ、スケーリング、管理を自動化するのに使用できるオープンソースシステムです。
Azure Data Lake Storage は、Hadoop と互換性のあるファイルシステムです。これには、階層型名前空間が統合されており、Blob Storage の大規模なスケールと経済性を備えています。
Azure Synapse Analytics は、データ統合、エンタープライズデータウェアハウス、およびビッグデータ分析が 1 つにまとめられた無制限の分析サービスです。
Azure Event Hubs は、クライアントアプリケーションが生成するデータストリームを取り込むサービスです。そして、受信したイベントのシーケンスを保持したまま、ストリーミングデータを取り込み、保存します。コンシューマーはハブエンドポイントに接続して、処理するメッセージを取得できます。このアーキテクチャでは、Data Lake Storage 統合が使用されます。

その他の考慮事項

前述の MLOps v2 アーキテクチャパターンには、ビジネス関係者に合わせたロールベースのアクセス制御 (RBAC)、効率的なパッケージ管理、堅牢な監視メカニズムなど、いくつかの重要なコンポーネントがあります。これらのコンポーネントは総合的に、機械学習ワークフローの実装と管理の成功に貢献します。

ペルソナベースの RBAC

機械学習のデータとリソースへのアクセスを管理することが重要です。 RBAC は、ソリューション内の特定のアクションを実行できるユーザーや特定の領域にアクセスできるユーザーを管理するのに役立つ強力なフレームワークを提供します。 Machine Learning の機械学習モデルとプロセスに含まれるペルソナのライフサイクルに合わせて、ID セグメント化戦略を設計します。各ペルソナには、RBAC ロールとグループメンバーシップに反映される特定の責任セットがあります。

ペルソナの例

機械学習ワークロードで適切なセグメント化をサポートするには、識別ベースの RBAC グループ設計を通知する次の一般的なペルソナを検討してください。

データサイエンティストおよび機械学習エンジニア

データサイエンティストと機械学習エンジニアは、プロジェクトのソフトウェア開発ライフサイクル全体にわたって、さまざまな機械学習およびデータサイエンスのアクティビティを実行します。それらの職務には、探索的データ分析とデータの前処理が含まれます。データサイエンティストと機械学習エンジニアは、モデルのトレーニング、評価、および展開を担当します。これらの役割の責任には、機械学習モデル、パッケージ、およびデータの修理アクティビティも含まれます。これらの職務は、プラットフォームのテクニカルサポートチームの範囲外です。

タイプ: 個人
プロジェクト固有: はい

データアナリスト

データアナリストは、ビジネスインテリジェンス用の SQL クエリの実行など、データサイエンスアクティビティに必要な入力を提供します。このロールの責任には、データの操作、データ分析の実行、モデル開発とモデルデプロイのサポートが含まれます。

タイプ: 個人
プロジェクト固有: はい

モデルテスター

モデルテスト担当者は、テスト環境とステージング環境でテストを実施します。このロールは、CI/CD プロセスからの機能分離を提供します。

タイプ: 個人
プロジェクト固有: はい

業務の利害関係者

マーケティングマネージャーなどのビジネス関係者がプロジェクトに関係します。

タイプ: 個人
プロジェクト固有: はい

プロジェクトリードまたはデータサイエンスリード

データサイエンスリードは、Machine Learning ワークスペースのプロジェクト管理ロールです。このロールは、機械学習モデルとパッケージの障害対応のアクティビティも行います。

タイプ: 個人
プロジェクト固有: はい

プロジェクトまたは製品の所有者 (ビジネス所有者)

ビジネス関係者は、データの所有権に応じて Machine Learning ワークスペースに対して責任を負います。

タイプ: 個人
プロジェクト固有: はい

プラットフォームのテクニカルサポート

プラットフォームのテクニカルサポートは、プラットフォーム全体の中断修正アクティビティを担当するテクニカルサポートスタッフです。このロールはインフラストラクチャまたはサービスをカバーしますが、機械学習モデル、パッケージ、またはデータはカバーしません。これらのコンポーネントはデータサイエンティストまたは機械学習エンジニアの役割の下にあり、プロジェクトリードの責任となります。

タイプ: 個人
プロジェクト固有: いいえ

エンドユーザーのモデル化

モデルのエンドユーザーは、機械学習モデルのエンドコンシューマーです。

タイプ: 個人またはプロセス
プロジェクト固有: はい

CI/CD プロセス

CI/CD プロセスは、プラットフォーム環境全体で変更をリリースまたはロールバックします。

タイプ: プロセス
プロジェクト固有: いいえ

Machine Learning ワークスペース

Machine Learning ワークスペースでは、マネージド ID を使用して Azure の他の部分とやり取りします。このペルソナは、機械学習の実装を構成するさまざまなサービスを表します。これらのサービスは、開発データストアに接続する開発ワークスペースなど、プラットフォームの他の部分と対話します。

タイプ: プロセス
プロジェクト固有: いいえ

監視プロセス

監視プロセスは、プラットフォームのアクティビティに基づいて監視およびアラートを行うコンピューティングプロセスです。

タイプ: プロセス
プロジェクト固有: いいえ

データガバナンスのプロセス

データガバナンスプロセスは、機械学習プロジェクトとデータストアをスキャンしてデータガバナンスを行います。

タイプ: プロセス
プロジェクト固有: いいえ

Microsoft Entra グループメンバーシップ

RBAC を実装すると、 Microsoft Entra グループは、さまざまなペルソナにわたるアクセス許可を管理するための柔軟でスケーラブルな方法を提供します。 Microsoft Entra グループを使用して、制限されている可能性があるアプリやサービスなどのリソースに対して、アクセスとアクセス許可を全員同じにする必要があるユーザーを管理することができます。個々のユーザーに特別なアクセス許可を追加するのではなく、グループを作成し、そのグループのすべてのメンバーにその特別なアクセス許可を適用します。

このアーキテクチャパターンでは、プロジェクト、チーム、部門などの Machine Learning ワークスペースのセットアップにこれらのグループを結合することができます。ユーザーを特定のグループに関連付けて、きめ細かいアクセスポリシーを定義できます。ポリシーは、職務、プロジェクト要件、またはその他の基準に基づいて、さまざまな Machine Learning ワークスペースへのアクセス許可を付与または制限します。たとえば、特定のユースケースについて、すべてのデータサイエンティストに開発ワークスペースへのアクセスを許可するグループを作成できます。

ID RBAC

次の組み込みの Azure RBAC ロールを使用して、運用環境と運用前の環境に RBAC を適用する方法を検討してください。この記事のアーキテクチャでは、運用環境にはステージング環境、テスト環境、運用環境が含まれます。運用前環境には開発環境が含まれます。次の RBAC ロールは、この記事で前述したペルソナに基づいています。

標準ロール

コンポーネント固有のロール

これらの Azure RBAC ロールの省略形は、次の表に対応します。

運用環境

ペルソナ	Machine Learning ワークスペース	Azure Key Vault	コンテナレジストリ	Azure ストレージアカウント	Azure DevOps	Azure Artifacts	Log Analytics ワークスペース	Azure Monitor
データ科学者			R				ラール	氏
データアナリスト
モデルテスター
業務の利害関係者								氏
プロジェクトリード (データサイエンスリード)	R	R、KVR	R				ラール	氏
プロジェクト/製品の所有者								氏
プラットフォームのテクニカルサポート	O	O、KVA			ドプカ	O	O	O
エンドユーザーのモデル化
CI/CD プロセス	O	O、KVA	アクプッシュ		ドプカ	O	O	O
Machine Learning ワークスペース		R	C	C
監視プロセス	R						ラール	氏
データガバナンスのプロセス	R		R	R	R	R

運用前環境

ペルソナ	Machine Learning ワークスペース	Key Vault（鍵庫）	コンテナレジストリ	ストレージアカウント	Azure DevOps	Azure Artifacts	Log Analytics ワークスペース	Azure Monitor
データ科学者	広告	R、KVA	C	C	C	C	ラック	MC
データアナリスト	R			C			ラール	MC
モデルテスター	R	R、KVR	R	R	R	R	ラール	氏
業務の利害関係者	R		R	R	R	R
プロジェクトリード (データサイエンスリード)	C	C、KVA	C	C	C	C	ラック	MC
プロジェクト/製品の所有者	R			R				氏
プラットフォームのテクニカルサポート	O	O、KVA	O	O	ドプカ	O	O	O
エンドユーザーのモデル化
CI/CD プロセス	O	O、KVA	アクプッシュ	O	ドプカ	O	O	O
Machine Learning ワークスペース		R、KVR	C	C
監視プロセス	R	R	R	R	R	R	ラック
データガバナンスのプロセス	R		R	R

注

プラットフォームテクニカルサポートを除くすべてのペルソナは、プロジェクトの期間中、アクセス権を保持します。プラットフォームテクニカルサポートには、一時的またはジャストインタイムの Microsoft Entra Privileged Identity Management (PIM) アクセス許可が付与されます。

RBAC は、MLOps ワークフローのセキュリティ保護と合理化において重要なロールを果たします。 RBAC は、割り当てられたロールに基づいてアクセスを制限し、承認されていないユーザーが機密データにアクセスするのを防ぎ、セキュリティリスクを軽減します。機密データには、トレーニングデータやモデル、および運用パイプラインなどの重要なインフラストラクチャが含まれます。 RBAC を使用して、データプライバシー規制に確実に準拠できます。 RBAC はアクセスとアクセス許可の明確な記録も提供するため、監査が簡素化され、セキュリティのギャップを簡単に特定でき、ユーザーアクティビティを追跡できます。

パッケージの管理

さまざまなパッケージ、ライブラリ、バイナリへの依存関係は、MLOps ライフサイクル全体で共通です。これらの依存関係は、多くの場合コミュニティによって開発され、急速に進化しており、適切に使用および理解するには、主題に関する専門知識が必要です。適切な人がパッケージやライブラリなどのさまざまな資産に安全にアクセスできるようにする必要がありますが、脆弱性も防止する必要があります。データサイエンティストは、機械学習ソリューション用の特殊な構築ブロックを組み立てるときにこの問題に直面します。従来のソフトウェア管理アプローチはコストがかかり、非効率的です。他のアプローチの方が価値が高くなります。

これらの依存関係を管理するには、検疫パターンに基づいた安全なセルフサービスパッケージ管理プロセスを使用できます。このプロセスを設計することで、データサイエンティストが厳選されたパッケージのリストからセルフサービスで利用し、パッケージが安全で組織の標準に準拠していることを保証できるようになります。

ここのアプローチには、業界標準の機械学習パッケージリポジトリである Microsoft Artifact Registry、Python Package Index (PyPI)、Conda の 3 つの安全リストへの登録が含まれます。セーフリストにより、個々の Machine Learning ワークスペースからのセルフサービスが可能になります。次に、デプロイ中に自動テストプロセスを使用して、結果のソリューションコンテナーをスキャンします。失敗すると、デプロイプロセスが適切に終了し、コンテナーが削除されます。次の図とプロセスフローは、このプロセスを示しています。

プロセスフロー

ネットワーク構成を持つ Machine Learning ワークスペースで作業するデータサイエンティストは、機械学習パッケージリポジトリからオンデマンドで機械学習パッケージをセルフサービスで利用できます。集中化された機能を使用してシードおよび維持されるプライベートストレージパターンを使用すると、その他すべてに例外プロセスが必要になります。
機械学習は、Docker コンテナーとして機械学習ソリューションを提供します。これらのソリューションが開発されると、Container Registry にアップロードされます。 Microsoft Defender for Containers は、コンテナーイメージの脆弱性アセスメントを生成します。
ソリューションのデプロイは、CI/CD プロセスを通じて行われます。 Microsoft Defender for DevOps は、スタック全体で使用されて、セキュリティ体制管理と脅威保護を提供します。
ソリューションコンテナーは、各セキュリティプロセスに合格した場合にのみデプロイされます。ソリューションコンテナーがセキュリティプロセスに失敗した場合、エラー通知と完全な監査証跡とともにデプロイが失敗します。ソリューションコンテナーは破棄されます。

前のプロセスフローは、データサイエンティストに安全なセルフサービスパッケージ管理プロセスを提供し、パッケージが安全で組織の標準に準拠していることを保証します。イノベーションとセキュリティのバランスをとるために、データサイエンティストに、運用前の環境での一般的な機械学習パッケージ、ライブラリ、バイナリへのセルフサービスアクセスを許可できます。あまり一般的でないパッケージには例外が必要です。この戦略により、データサイエンティストは開発中に生産性を維持でき、配信時の大きなボトルネックを防ぐことができます。

リリースプロセスを効率化するには、運用環境で使用する環境をコンテナー化します。コンテナー化された環境では、脆弱性のスキャンを通じて、問題を軽減し、継続的なセキュリティを確保します。このプロセスフローは、ユースケース間で配信時まで使用できる反復可能なアプローチを提供します。企業内で機械学習ソリューションを構築およびデプロイするための全体的なコストを削減します。

監視

MLOps では、機械学習システムの健全性とパフォーマンスを維持し、モデルが効果的であり、ビジネス目標と一致していることを確認するために、監視が非常に重要となります。監視では、内部ループフェーズ中のガバナンス、セキュリティ、およびコスト制御がサポートされます。また、外側のループフェーズでソリューションをデプロイする際のパフォーマンス、モデルの低下、使用状況の監視可能性も提供します。監視アクティビティは、データサイエンティスト、ビジネスステークホルダー、プロジェクトリーダー、プロジェクトオーナー、プラットフォームテクニカルサポート、CI/CD プロセス、監視プロセスなどのペルソナに関連します。

Machine Learning ワークスペースのセットアップ (プロジェクト、チーム、部署など) に応じて、監視と検証のプラットフォームを選択します。

モデルのパフォーマンス

モデルのパフォーマンスを監視して、モデルの問題とパフォーマンスの低下を早期に検出します。パフォーマンスを追跡して、モデルの正確性と信頼性を維持し、ビジネス目標に沿ったものであることを確認します。

データドリフト

データドリフトは、モデルのトレーニングデータまたは最近の過去の生産データと比較して、モデルの入力データの分布の変化を追跡します。これらの変更は、市場の動向の変化、機能変換の変更、またはアップストリームデータの変更の結果です。このような変更によりモデルのパフォーマンスが低下する可能性があるため、ドリフトを監視してタイムリーな修復を確保することが重要です。比較を実行するには、データドリフトリファクタリングに最新の運用データセットと出力が必要となります。

環境: 運用
Azure ファシリテーション: 機械学習 – モデルモニタリング

予測の変動

予測ドリフトは、モデルの予測出力を検証データ、テストラベル付きデータ、または最近の運用データと比較することで、モデルの予測出力の分布の変化を追跡します。比較を実行するには、データドリフトリファクタリングに最新の運用データセットと出力が必要となります。

環境: 運用
Azure ファシリテーション: 機械学習 – モデルモニタリング

リソース

エンドポイントメトリックを提供するいくつかのモデルを使用して、CPU やメモリ使用量などの品質とパフォーマンスを示します。このアプローチは、運用から学び、将来の投資や変更を促進するのに役立ちます。

環境: すべて
Azure ファシリテーション: モニター - オンラインエンドポイントメトリック

使用状況メトリック

エンドポイントの使用状況を監視して、組織固有またはワークロード固有の主要業績評価指標を満たしていることを確認し、使用パターンを追跡し、ユーザーが経験する問題を診断して修復します。

クライアントの要求

モデルエンドポイントへのクライアント要求の数を追跡して、エンドポイントのアクティブな使用状況プロファイルを把握します。これは、スケーリングやコスト最適化の取り組みに影響を与える可能性があります。

環境: 運用
Azure ファシリテーション: モニター - オンラインエンドポイントメトリック (RequestsPerMinute など)。注:

ワークロードのニーズに合わせて、許容可能なしきい値を T シャツのサイズ設定や異常値に合わせることができます。
使用されなくなったモデルを運用環境から廃止します。

スロットリングの遅延

調整の遅延は、データ転送の要求と応答の速度低下です。調整は、Resource Manager レベルとサービスレベルで行われます。両方のレベルでメトリックを追跡します。

環境: 運用
Azure ファシリテーション:

モニター - Resource Manager、RequestThrottlingDelayMs、ResponseThrottlingDelayMs の合計。
機械学習 - エンドポイントの要求に関する情報を確認するには、オンラインエンドポイントトラフィックログを有効にします。ログ分析ワークスペースを使用してログを処理できます。

注: 許容可能なしきい値を、ワークロードのサービスレベル目標 (SLO) またはサービスレベル契約 (SLA) とソリューションの非機能要件 (NFR) に合わせて調整します。

エラーの生成

応答コードエラーを追跡することで、サービスの信頼性を測定し、サービスの問題を早期に検出できるようになります。たとえば、500 server error 応答が突然増加した場合は、すぐに対処する必要がある重大な問題が発生している可能性があります。

環境: 運用
Azure ファシリテーション: 機械学習 - オンラインエンドポイントトラフィックログを有効にして、要求に関する情報を確認します。たとえば、ModelStatusCode または ModelStatusReason を使用して XRequestId の数を確認できます。ログ分析ワークスペースを使用してログを処理できます。
注:

400 から 500 の範囲内のすべての HTTP 応答コードは、エラーとして分類されます。

コストの最適化

クラウド環境でのコスト管理と最適化は、ワークロードの費用を制御し、リソースを効率的に割り当て、クラウドサービスからの価値を最大化するのに役立つため、非常に重要です。

ワークスペースコンピューティング

月間運営費が定義済みの金額に達するか超過すると、ワークスペース設定の境界に基づいて、プロジェクトリードやプロジェクト所有者などの関連する関係者に通知するアラートを生成します。プロジェクト、チーム、または部門関連の境界に基づいて、ワークスペースのセットアップを決定できます。

環境: すべて
Azure ファシリテーション: Microsoft Cost Management - 予算アラート
注:

初期 NPR とコスト見積もりに基づいて、予算のしきい値を設定します。
複数のしきい値レベルを使用します。複数のしきい値レベルにより、利害関係者は予算を超える前に適切な警告を受け取ります。これらの利害関係者には、組織またはワークロードに応じて、ビジネスリード、プロジェクト所有者、またはプロジェクトリードが含まれる場合があります。
一貫性のある予算アラートは、より大きな需要をサポートするためのリファクタリングのトリガーになる可能性もあります。

ワークスペースの陳腐化

Machine Learning ワークスペースが、意図したユースケースに関連するコンピューティング使用量に基づいてアクティブに使用されているという兆候を示さない場合、プロジェクト所有者は、特定のプロジェクトで不要になったワークスペースを廃止することができます。

環境: 運用前
Azure ファシリテーション:

監視 - Machine Learning メトリック
機械学習 - ワークスペースメトリック (一定期間のアクティブコアの数など)

注:

アクティブコアの数は、集計すると 0 になります。
日付のしきい値をプロジェクトスケジュールに合わせます。

セキュリティ

適切なセキュリティ制御とベースラインからの逸脱を検出して監視し、Machine Learning ワークスペースが組織のセキュリティポリシーに準拠していることを確認します。定義済みポリシーとカスタム定義ポリシーの組み合わせを使用できます。

環境: すべて
Azure ファシリテーション:Machine Learning の Azure Policy

エンドポイントのセキュリティ

ビジネスクリティカルな API を可視化するには、すべての機械学習エンドポイントを対象にしたセキュリティ監視を実装します。 API のセキュリティ態勢の調査と改善、脆弱性の修正の優先度付け、アクティブなリアルタイムの脅威のすばやい検出を可能にします。

環境: 運用
Azure ファシリテーション:Microsoft Defender for APIs は、APIの広範なライフサイクル保護、検出、応答カバレッジを提供します。注: Defender for APIs は、Azure API Management で公開される API にセキュリティを提供します。 Defender for APIs は、Microsoft Defender for Cloud ポータルまたは Azure portal の API Management インスタンス内でオンボードできます。 Machine Learning オンラインエンドポイントを API Management と統合する必要があります。

デプロイの監視

デプロイの監視により、作成したエンドポイントがワークロードまたは組織のポリシーに準拠し、脆弱性から解放されます。このプロセスでは、デプロイの前後に Azure リソースにコンプライアンスポリシーを適用し、脆弱性スキャンを通じて継続的なセキュリティを提供し、運用中にサービスが SLO を満たしていることを確認する必要があります。

標準とガバナンス

適切な標準からの逸脱を検出し、ワークロードがガードレールに準拠していることを確認するために監視します。

環境: すべて
Azure ファシリテーション:

Azure Pipelines を通じてポリシーの割り当てとライフサイクルを管理し、ポリシーをコードとして扱います。
PsRule for Azure は、Azure インフラストラクチャのコードとしてのテストフレームワークを提供します。
コードとしての Azure エンタープライズポリシーは、CI/CD ベースのシステムデプロイポリシー、ポリシーセット、割り当て、ポリシー免除、およびロールの割り当てのコードとして使用できます。

注: 詳細については、「機械学習の規制コンプライアンスに関する Azure ガイダンス」を参照してください。

セキュリティスキャン

自動化された統合およびデプロイプロセスの一部として、自動セキュリティスキャンを実装します。

環境: すべて
Azure ファシリテーション:Defender For DevOps
注:Azure Marketplace のアプリを使用して、このプロセスを Microsoft 以外のセキュリティテストモジュール用に拡張できます。

進行中のサービス

パフォーマンスの最適化、セキュリティ、リソースの使用状況について、API の継続的なサービスを監視します。タイムリーなエラー検出、効率的なトラブルシューティング、標準への準拠を保証します。

環境: 運用
Azure ファシリテーション:

監視 - Machine Learning メトリック
機械学習 - オンラインエンドポイントトラフィックログを有効にして、サービスに関する情報を確認できます。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

主要著者:

Setu Chokshi |シニアテクニカルスペシャリスト

その他の共同作成者:

Scott Mckinnon | クラウドソリューションアーキテクト
ダレン・トゥルキアレッリ | クラウドソリューションアーキテクト
レオ・コジュシュニック | クラウドソリューションアーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の方法で共有

機械学習の操作

考えられるユース ケース

AI ワークロードの主要な設計領域としての MLOps

建築

古典的機械学習アーキテクチャ

古典的機械学習アーキテクチャのワークフロー

Machine Learning CV アーキテクチャ

CV アーキテクチャのワークフロー

Machine Learning の自然言語処理アーキテクチャ

自然言語処理アーキテクチャのワークフロー

コンポーネント

その他の考慮事項

ペルソナベースの RBAC

ペルソナの例

データ サイエンティストおよび機械学習エンジニア

データ アナリスト

モデル テスター

業務の利害関係者

プロジェクト リードまたはデータ サイエンス リード

プロジェクトまたは製品の所有者 (ビジネス所有者)

プラットフォームのテクニカル サポート

エンド ユーザーのモデル化

CI/CD プロセス

Machine Learning ワークスペース

監視プロセス

データ ガバナンスのプロセス

Microsoft Entra グループ メンバーシップ

ID RBAC

標準ロール

コンポーネント固有のロール

運用環境

運用前環境

パッケージの管理

プロセス フロー

監視

モデルのパフォーマンス

データ ドリフト

予測の変動

リソース

使用状況メトリック

クライアントの要求

スロットリングの遅延

エラーの生成

コストの最適化

ワークスペース コンピューティング

ワークスペースの陳腐化

セキュリティ

エンドポイントのセキュリティ

デプロイの監視

標準とガバナンス

セキュリティ スキャン

進行中のサービス

共同作成者

次のステップ

関連リソース

フィードバック

その他のリソース

考えられるユースケース

データサイエンティストおよび機械学習エンジニア

データアナリスト

モデルテスター

プロジェクトリードまたはデータサイエンスリード

プラットフォームのテクニカルサポート

エンドユーザーのモデル化

データガバナンスのプロセス

Microsoft Entra グループメンバーシップ

プロセスフロー

データドリフト

ワークスペースコンピューティング

セキュリティスキャン