リアルタイム推論用にデプロイされたモデルから運用データを収集する

[アーティクル]
09/03/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、Azure Machine Learning データコレクターを使用して、Azure Machine Learning マネージドオンラインエンドポイントまたは Kubernetes オンラインエンドポイントにデプロイされたモデルから運用推論データを収集する方法について説明します。

新しいまたは既存のオンラインエンドポイントデプロイのデータコレクションを有効にすることができます。 Azure Machine Learning データコレクターは、Azure Blob Storage 内の推論データをログします。 Python SDK で収集されたデータは、Azure Machine Learning ワークスペースでデータ資産として自動的に登録されます。このデータ資産は、モデルの監視に使用できます。

リアルタイムエンドポイントにデプロイされた MLflow モデルの運用推論データの収集に関心がある場合は、「MLflow モデルのデータコレクション」を参照してください。

この記事の手順に従う前に、次の前提条件が満たされていることをご確認ください。

Azure CLI と Azure CLI の ml 拡張機能。詳しくは、CLI (v2) のインストール、設定、使用に関するページをご覧ください。

重要

この記事の CLI の例では、Bash (または互換性のある) シェルを使用していることを前提としています。たとえば、Linux システムや Linux 用 Windows サブシステムなどです。
Azure Machine Learning ワークスペース。お持ちでない場合は、CLI (v2) のインストール、セットアップ、使用に関する記事の手順を使用して作成します。

Azure ロールベースのアクセス制御 (Azure RBAC) は、Azure Machine Learning の操作に対するアクセスを許可するために使用されます。この記事の手順を実行するには、ユーザーアカウントに、Azure Machine Learning ワークスペースの所有者か共同作成者ロール、または Microsoft.MachineLearningServices/workspaces/onlineEndpoints/* を許可するカスタムロールを割り当てる必要があります。詳細については、「Azure Machine Learning ワークスペースへのアクセスの管理」を参照してください。

この記事の手順に従う前に、次の前提条件が満たされていることをご確認ください。

Azure Machine Learning ワークスペース。所有していない場合は、クイックスタート: ワークスペースリソースの作成に関する記事の手順に従って作成してください。
Python SDK v2 をインストールするには、次のコマンドを使用します。
```
pip install azure-ai-ml azure-identity
```
SDK の既存のインストールを最新バージョンに更新するには、次のコマンドを使用します。
```
pip install --upgrade azure-ai-ml azure-identity
```
詳しくは、Azure Machine Learning 用の Python SDK v2 のインストールに関する記事をご覧ください。

Azure ロールベースのアクセス制御 (Azure RBAC) は、Azure Machine Learning の操作に対するアクセスを許可するために使用されます。この記事の手順を実行するには、ユーザーアカウントに、Azure Machine Learning ワークスペースの所有者か共同作成者ロール、または Microsoft.MachineLearningServices/workspaces/onlineEndpoints/* を許可するカスタムロールを割り当てる必要があります。詳細については、「Azure Machine Learning ワークスペースへのアクセスの管理」を参照してください。

デプロイに使用できる登録済みモデルを用意します。モデルを登録していない場合は、「Machine Learning でモデルを資産として登録する」を参照してください。
Azure Machine Learning オンラインエンドポイントを作成します。既存のオンラインエンドポイントがない場合は、「オンラインエンドポイントを使用して機械学習モデルをデプロイおよびスコア付けする」を参照してください。

モデル監視のためのカスタムログを実行する

カスタムログによるデータコレクションを使用すると、データの変換前、変換中、変換後にスコアリングスクリプトから直接 pandas DataFrame をログできます。カスタムログを使用すると、表形式データがワークスペース Blob Storage またはカスタム BLOB ストレージコンテナーにリアルタイムでログ記録されます。モデルモニターは、ストレージからのデータを使用できます。

スコアリングスクリプトをカスタムログコードで更新する

まず、カスタムログコードをスコアリングスクリプト (score.py) に追加します。カスタムログには、azureml-ai-monitoring パッケージが必要です。このパッケージの詳細については、包括的な「PyPI のデータコレクター SDK に関するページ」を参照してください。

スコアリングスクリプトの先頭に次の行を追加して、azureml-ai-monitoring パッケージをインポートします。
```
from azureml.ai.monitoring import Collector
```
init() 関数でデータコレクション変数 (最大 5 つ) を宣言します。

Note

Collector オブジェクトに名前 model_inputs および model_outputs を使用すると、モデル監視システムでは、自動的に登録されたデータ資産が自動的に認識され、よりシームレスなモデル監視エクスペリエンスが提供されます。
```
global inputs_collector, outputs_collector
inputs_collector = Collector(name='model_inputs')          
outputs_collector = Collector(name='model_outputs')
```
既定では、データコレクション中に障害が発生した場合、Azure Machine Learning により例外が発生します。必要に応じて、on_error パラメーターを使用して、ログ障害が発生した場合に実行する関数を指定できます。たとえば、次のコードで on_error パラメーターを使用すると、Azure Machine Learning では、例外をスローするのではなくエラーをログします。
```
inputs_collector = Collector(name='model_inputs', on_error=lambda e: logging.info("ex:{}".format(e)))
```
run() 関数で、collect() 関数を使用して、スコアリングの前後に DataFrame をログします。 context は、最初の呼び出しから collect() に返されます。これには、モデルの入力とモデルの出力を後で関連付けるための情報が含まれます。
```
context = inputs_collector.collect(data) 
result = model.predict(data)
outputs_collector.collect(result, context)
```
Note

現在、collect() API は pandas DataFrames のみをログに記録します。 collect() に渡されたときに DataFrame にデータがない場合、ストレージにはログされず、エラーが報告されます。

次のコードは、カスタムログ Python SDK を使用する完全なスコアリングスクリプト (score.py) の例です。

import pandas as pd
import json
from azureml.ai.monitoring import Collector

def init():
  global inputs_collector, outputs_collector, inputs_outputs_collector

  # instantiate collectors with appropriate names, make sure align with deployment spec
  inputs_collector = Collector(name='model_inputs')                    
  outputs_collector = Collector(name='model_outputs')

def run(data): 
  # json data: { "data" : {  "col1": [1,2,3], "col2": [2,3,4] } }
  pdf_data = preprocess(json.loads(data))
  
  # tabular data: {  "col1": [1,2,3], "col2": [2,3,4] }
  input_df = pd.DataFrame(pdf_data)

  # collect inputs data, store correlation_context
  context = inputs_collector.collect(input_df)

  # perform scoring with pandas Dataframe, return value is also pandas Dataframe
  output_df = predict(input_df) 

  # collect outputs data, pass in correlation_context so inputs and outputs data can be correlated later
  outputs_collector.collect(output_df, context)
  
  return output_df.to_dict()
  
def preprocess(json_data):
  # preprocess the payload to ensure it can be converted to pandas DataFrame
  return json_data["data"]

def predict(input_df):
  # process input and return with outputs
  ...
  
  return output_df

カスタムな一意の ID をログに記録するようにスコアリングスクリプトを更新する

スコアリングスクリプト内で pandas DataFrames を直接ログ記録することに加え、選択した一意の ID を使用してデータをログに記録することもできます。これらの ID は、アプリケーションや外部システムから取得することも、自分で生成することもできます。このセクションで詳しく説明するように、カスタム ID を指定しない場合、データコレクターは一意の correlationid を自動生成するので、後でモデルの入力と出力を関連付けるのに役立ちます。カスタム ID を指定した場合、ログデータの correlationid フィールドには、指定したカスタム ID の値が含まれます。

まず、前のセクションの手順を完了してから、以下の行をスコアリングスクリプトに追加して、azureml.ai.monitoring.context パッケージをインポートします。
```
from azureml.ai.monitoring.context import BasicCorrelationContext
```
スコアリングスクリプトで、BasicCorrelationContext オブジェクトをインスタンス化し、行のログ記録を行なう id に渡します。この id はシステムにおいて一意の ID にすることをお勧めします。これにより、Blob Storage からログに記録された各行を一意に識別できます。このオブジェクトをパラメーターとして collect() API 呼び出しに渡します。
```
  # create a context with a custom unique id
  artificial_context = BasicCorrelationContext(id='test')

  # collect inputs data, store correlation_context
  context = inputs_collector.collect(input_df, artificial_context)
```
outputs_collector 内への受け渡しは、必ずコンテキストで行ないます。モデルの入力と出力が同じ一意の ID を持ち、それらでログに記録されるので、後で簡単に関連付けられるようになります。
```
  # collect outputs data, pass in context so inputs and outputs data can be correlated later
  outputs_collector.collect(output_df, context)
```

次のコードは、カスタムの一意の ID をログに記録する、完全なスコアリングスクリプト (score.py) の例です。

import pandas as pd
import json
from azureml.ai.monitoring import Collector
from azureml.ai.monitoring.context import BasicCorrelationContext

def init():
  global inputs_collector, outputs_collector, inputs_outputs_collector

  # instantiate collectors with appropriate names, make sure align with deployment spec
  inputs_collector = Collector(name='model_inputs')                    
  outputs_collector = Collector(name='model_outputs')

def run(data): 
  # json data: { "data" : {  "col1": [1,2,3], "col2": [2,3,4] } }
  pdf_data = preprocess(json.loads(data))
  
  # tabular data: {  "col1": [1,2,3], "col2": [2,3,4] }
  input_df = pd.DataFrame(pdf_data)

  # create a context with a custom unique id
  artificial_context = BasicCorrelationContext(id='test')

  # collect inputs data, store correlation_context
  context = inputs_collector.collect(input_df, artificial_context)

  # perform scoring with pandas Dataframe, return value is also pandas Dataframe
  output_df = predict(input_df) 

  # collect outputs data, pass in context so inputs and outputs data can be correlated later
  outputs_collector.collect(output_df, context)
  
  return output_df.to_dict()
  
def preprocess(json_data):
  # preprocess the payload to ensure it can be converted to pandas DataFrame
  return json_data["data"]

def predict(input_df):
  # process input and return with outputs
  ...
  
  return output_df

モデルパフォーマンスモニタリング用のデータを収集する

収集したデータをモデルのパフォーマンスモニタリングに使用したい場合は、ログに記録された各行に一意の correlationid が存在することが重要です。これは、対象のデータが使用可能になったときに、そのデータを真のデータと関連付けるために使用できます。データコレクターは、ログに記録された行ごとに一意の correlationid を自動生成し、この生成された ID を JSON オブジェクトの correlationid フィールドに含めます。 JSON スキーマの詳細情報については、「収集されたデータを BLOB ストレージに格納する」を参照してください。

互いに近接する要求同士はデータコレクターによりバッチされるため、運用データのログ記録に独自の一意の ID を使用したい場合は、その ID を pandas DataFrame での個別の列としてログ記録することをお勧めします。この correlationid を個別の列としてログに記録することで、真のデータとの統合用に、すぐにダウンストリームできるようになります。

依存関係を更新する

更新されたスコアリングスクリプトを使用してデプロイを作成する前に、基本イメージ mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04 と適切な conda 依存関係を使用して環境を作成する必要があります。その後、次の YAML 内の仕様を使用して環境を構築できます。

channels:
  - conda-forge
dependencies:
  - python=3.8
  - pip=22.3.1
  - pip:
      - azureml-defaults==1.38.0
      - azureml-ai-monitoring~=0.1.0b1
name: model-env

デプロイ YAML を更新する

次に、デプロイ YAML を作成します。デプロイ YAML を作成するには、data_collector 属性を含め、カスタムログ Python SDK を使用して先ほどインスタンス化した Collector オブジェクト (model_inputs と model_outputs) のデータ収集を有効にします。

data_collector:
  collections:
    model_inputs:
      enabled: 'True'
    model_outputs:
      enabled: 'True'

次のコードは、マネージドオンラインエンドポイントデプロイ用の包括的なデプロイ YAML の例です。シナリオに従ってデプロイ YAML を更新する必要があります。推論データログ用にデプロイ YAML を書式設定する方法の詳細な例については、Azure モデルデータコレクターの例に関する記事を参照してください。

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my_endpoint
model: azureml:iris_mlflow_model@latest
environment:
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04
  conda_file: model/conda.yaml
code_configuration:
  code: scripts
  scoring_script: score.py
instance_type: Standard_F2s_v2
instance_count: 1
data_collector:
  collections:
    model_inputs:
      enabled: 'True'
    model_outputs:
      enabled: 'True'

必要に応じて、data_collector の次の追加パラメーターを調整できます。

data_collector.rolling_rate: ストレージ内のデータをパーティション分割する速度。 Minute、Hour、Day、Month、または Year の値から選択します。
data_collector.sampling_rate: 収集するデータの割合 (10 進数の割合として表されます)。たとえば、値 1.0 は、データを 100% 収集することを表します。
data_collector.collections.<collection_name>.data.name: 収集されたデータと共に登録するデータ資産の名前。
data_collector.collections.<collection_name>.data.path: 収集されたデータをデータ資産として登録する必要がある Machine Learning データストアの完全パス。
data_collector.collections.<collection_name>.data.version: 収集されたデータと共に BLOB ストレージに登録されるデータ資産のバージョン。

カスタム BLOB ストレージコンテナーにデータを収集する

次の手順に従って、データコレクターを使用して、運用の推論データをカスタム BLOB ストレージコンテナーに収集できます。

ストレージコンテナーを Azure Machine Learning データストアに接続します。ストレージコンテナーを Azure Machine Learning データストアに接続する方法の詳細については、データストアの作成に関するページを参照してください。
Azure Machine Learning エンドポイントにデータストアの宛先に書き込むのに必要な権限があることを確認します。

データコレクターは、システム割り当てマネージド ID (SAMI) とユーザー割り当てマネージド ID (UAMI) の両方をサポートしています。エンドポイントに ID を追加します。この ID にデータの宛先として使用される BLOB ストレージコンテナーに関するロール Storage Blob Data Contributor を割り当てます。 Azure でマネージド ID を使用する方法については、「マネージド ID への Azure ロールの割り当て」を参照してください。
デプロイ YAML を更新して、各コレクション内に data プロパティを含めます。
- 必須パラメーター data.name では、収集されたデータに関して登録されるデータ資産の名前を指定します。
- 必須パラメーター data.path は、完全形式の Azure Machine Learning データストアパスを指定し、これは Azure Blob Storage コンテナーに接続されます。
- 省略可能な data.version パラメーターは、データ資産のバージョンを指定します (既定値は 1)。
次の YAML 構成は、各コレクション内に data プロパティを含める方法の例を示しています。
```
data_collector:
  collections:
    model_inputs:
      enabled: 'True'
      data: 
        name: my_model_inputs_data_asset
        path: azureml://datastores/workspaceblobstore/paths/modelDataCollector/my_endpoint/blue/model_inputs
        version: 1
    model_outputs:
      enabled: 'True'
      data: 
        name: my_model_outputs_data_asset
        path: azureml://datastores/workspaceblobstore/paths/modelDataCollector/my_endpoint/blue/model_outputs 
        version: 1
```
Note

data.path パラメーターを使用して、azureml://subscriptions/<sub_id>/resourcegroups/<rg_name>/workspaces/<ws_name>/datastores/<datastore_name>/paths/<path> 形式に従うパスを指定することで、さまざまな Azure サブスクリプション内のデータストアを指定することもできます。

データコレクションを使用してデプロイを作成する

カスタムログを有効にしてモデルをデプロイする:

$ az ml online-deployment create -f deployment.YAML

Kubernetes オンラインエンドポイントを使用してデータコレクション用にデプロイ YAML を書式設定する方法について詳しくは、「CLI (v2) Azure Arc 対応 Kubernetes オンラインデプロイ YAML スキーマ」を参照してください。

マネージドオンラインエンドポイントを使用してデータコレクション用にデプロイ YAML を書式設定する方法について詳しくは、「CLI (v2) マネージドオンラインデプロイ YAML スキーマ」を参照してください。

ペイロードのログ記録を実行する

提供された Python SDK を使用したカスタムログに加えて、要求および応答 HTTP ペイロードデータを直接収集することもできます。スコアリングスクリプト (score.py) を拡張する必要はありません。

ペイロードログを有効にするには、デプロイ YAML で、名前 request と response を使用します。

$schema: http://azureml/sdk-2-0/OnlineDeployment.json

endpoint_name: my_endpoint 
name: blue 
model: azureml:my-model-m1:1 
environment: azureml:env-m1:1 
data_collector:
   collections:
       request:
           enabled: 'True'
       response:
           enabled: 'True'

ペイロードログを有効にしてモデルをデプロイする:
```
$ az ml online-deployment create -f deployment.YAML
```

ペイロードログの場合、収集されたデータが表形式であることは保証されません。そのため、収集したペイロードデータをモデル監視で使用する場合は、データを表形式にするための前処理コンポーネントを提供する必要があります。シームレスなモデル監視エクスペリエンスに関心がある場合は、カスタムログ Python SDK を使用することをお勧めします。

デプロイが使用されると、収集されたデータがワークスペース BLOB ストレージに流れます。次の JSON コードは、HTTP "要求" で収集された JSON の例です。

{"specversion":"1.0",
"id":"19790b87-a63c-4295-9a67-febb2d8fbce0",
"source":"/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/mire2etesting/providers/Microsoft.MachineLearningServices/workspaces/mirmasterenvws/onlineEndpoints/localdev-endpoint/deployments/localdev",
"type":"azureml.inference.request",
"datacontenttype":"application/json",
"time":"2022-05-25T08:59:48Z",
"data":{"data": [  [1,2,3,4,5,6,7,8,9,10], [10,9,8,7,6,5,4,3,2,1]]},
"path":"/score",
"method":"POST",
"contentrange":"bytes 0-59/*",
"correlationid":"aaaa0000-bb11-2222-33cc-444444dddddd","xrequestid":"aaaa0000-bb11-2222-33cc-444444dddddd"}

次の JSON コードは、HTTP "応答" で収集されたその他の JSON の例です。

{"specversion":"1.0",
"id":"bbd80e51-8855-455f-a719-970023f41e7d",
"source":"/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/mire2etesting/providers/Microsoft.MachineLearningServices/workspaces/mirmasterenvws/onlineEndpoints/localdev-endpoint/deployments/localdev",
"type":"azureml.inference.response",
"datacontenttype":"application/json",
"time":"2022-05-25T08:59:48Z",
"data":[11055.977245525679, 4503.079536107787],
"contentrange":"bytes 0-38/39",
"correlationid":"aaaa0000-bb11-2222-33cc-444444dddddd","xrequestid":"aaaa0000-bb11-2222-33cc-444444dddddd"}

収集したデータを BLOB ストレージに格納する

データコレクションを使用すると、運用環境の推論データを、選択した Blob Storage の宛先にログ記録できます。データ変換先の設定は、collection_name レベルで構成が可能です。

BLOB ストレージの出力と形式:

既定では、収集されたデータは、ワークスペース Blob Storage のパス azureml://datastores/workspaceblobstore/paths/modelDataCollector に格納されます。
BLOB 内の最後のパスには、{endpoint_name}/{deployment_name}/{collection_name}/{yyyy}/{MM}/{dd}/{HH}/{instance_id}.jsonl が追加されます。
ファイル内の各行は、ログされた単一の推論要求または応答を表す JSON オブジェクトです。

Note

collection_name は、データコレクション名 (model_inputs や model_outputs など) を参照します。 instance_id は、ログされたデータのグループを識別する一意の ID です。

収集されたデータは、次の JSON スキーマに従います。収集されたデータは data キーから入手でき、追加のメタデータが提供されます。

{"specversion":"1.0",
"id":"725aa8af-0834-415c-aaf5-c76d0c08f694",
"source":"/subscriptions/bbbb1b1b-cc2c-dd3d-ee4e-ffffff5f5f5f/resourceGroups/mire2etesting/providers/Microsoft.MachineLearningServices/workspaces/mirmasterws/onlineEndpoints/localdev-endpoint/deployments/localdev",
"type":"azureml.inference.inputs",
"datacontenttype":"application/json",
"time":"2022-12-01T08:51:30Z",
"data":[{"label":"DRUG","pattern":"aspirin"},{"label":"DRUG","pattern":"trazodone"},{"label":"DRUG","pattern":"citalopram"}],
"correlationid":"bbbb1111-cc22-3333-44dd-555555eeeeee","xrequestid":"bbbb1111-cc22-3333-44dd-555555eeeeee",
"modelversion":"default",
"collectdatatype":"pandas.core.frame.DataFrame",
"agent":"monitoring-sdk/0.1.2",
"contentrange":"bytes 0-116/117"}

ヒント

改行は、読みやすくするためにのみ示されています。収集された .jsonl ファイルには、改行は含まれていません。

大きなペイロードを格納する

データのペイロードが 4 MB を超える場合、生のファイルパスを指す {endpoint_name}/{deployment_name}/request/.../{instance_id}.jsonl パス内に含まれる {instance_id}.jsonl ファイル内に 1 つのイベントが存在します。これには、パス blob_url/{blob_container}/{blob_path}/{endpoint_name}/{deployment_name}/{rolled_time}/{instance_id}.jsonl が含まれています。収集されたデータは、このパスに存在します。

バイナリデータを格納する

収集されたバイナリデータを使用して生のファイルを直接表示します。ファイル名として instance_id が使用されます。バイナリデータは、rolling_rate に基づいて、要求ソースグループパスと同じフォルダーに配置されます。次の例は、データフィールドのパスを反映しています。形式は JSON で、改行は読みやすくするためにのみ示されています。

{
"specversion":"1.0",
"id":"ba993308-f630-4fe2-833f-481b2e4d169a",
"source":"/subscriptions//resourceGroups//providers/Microsoft.MachineLearningServices/workspaces/ws/onlineEndpoints/ep/deployments/dp",
"type":"azureml.inference.request",
"datacontenttype":"text/plain",
"time":"2022-02-28T08:41:07Z",
"data":"https://masterws0373607518.blob.core.windows.net/modeldata/mdc/%5Byear%5D%5Bmonth%5D%5Bday%5D-%5Bhour%5D_%5Bminute%5D/ba993308-f630-4fe2-833f-481b2e4d169a",
"path":"/score?size=1",
"method":"POST",
"contentrange":"bytes 0-80770/80771",
"datainblob":"true"
}

データコレクターのバッチ処理

要求が互いに短い時間間隔で送信された場合、データコレクターはそれらを同じ JSON オブジェクトの中にバッチ処理します。たとえば、サンプルデータをエンドポイントに送信するスクリプトを実行し、デプロイでデータ収集が有効になっている場合には、それらの間の時間間隔に応じて、一部の要求がバッチ処理されることがあります。 Azure Machine Learning モデルモニタリングでデータ収集を使用している場合、このモデルモニタリングサービスは各要求を個別に処理します。ただし、ログに記録された各データ行に独自で一意の correlationid が含まれることが想定される場合は、データコレクターを使用してログ記録する pandas DataFrame に、列として correlationid を含めることができます。 pandas DataFrame に列として一意の correlationid を含める方法の詳細については、「モデルパフォーマンスの監視のためのデータ収集」を参照してください。

互いにバッチされログ記録された 2 つの要求の例を次に示します。

{"specversion":"1.0",
"id":"720b8867-54a2-4876-80eb-1fd6a8975770",
"source":"/subscriptions/cccc2c2c-dd3d-ee4e-ff5f-aaaaaa6a6a6a/resourceGroups/rg-bozhlinmomoignite/providers/Microsoft.MachineLearningServices/workspaces/momo-demo-ws/onlineEndpoints/credit-default-mdc-testing-4/deployments/main2",
"type":"azureml.inference.model_inputs",
"datacontenttype":"application/json",
"time":"2024-03-05T18:16:25Z",
"data":[{"LIMIT_BAL":502970,"AGE":54,"BILL_AMT1":308068,"BILL_AMT2":381402,"BILL_AMT3":442625,"BILL_AMT4":320399,"BILL_AMT5":322616,"BILL_AMT6":397534,"PAY_AMT1":17987,"PAY_AMT2":78764,"PAY_AMT3":26067,"PAY_AMT4":24102,"PAY_AMT5":-1155,"PAY_AMT6":2154,"SEX":2,"EDUCATION":2,"MARRIAGE":2,"PAY_0":0,"PAY_2":0,"PAY_3":0,"PAY_4":0,"PAY_5":0,"PAY_6":0},{"LIMIT_BAL":293458,"AGE":35,"BILL_AMT1":74131,"BILL_AMT2":-71014,"BILL_AMT3":59284,"BILL_AMT4":98926,"BILL_AMT5":110,"BILL_AMT6":1033,"PAY_AMT1":-3926,"PAY_AMT2":-12729,"PAY_AMT3":17405,"PAY_AMT4":25110,"PAY_AMT5":7051,"PAY_AMT6":1623,"SEX":1,"EDUCATION":3,"MARRIAGE":2,"PAY_0":-2,"PAY_2":-2,"PAY_3":-2,"PAY_4":-2,"PAY_5":-1,"PAY_6":-1}],
"contentrange":"bytes 0-6794/6795",
"correlationid":"test",
"xrequestid":"test",
"modelversion":"default",
"collectdatatype":"pandas.core.frame.DataFrame",
"agent":"azureml-ai-monitoring/0.1.0b4"}

スタジオ UI でデータを表示する

スタジオ UI から Blob Storage 内の収集されたデータを表示するには、次の手順を行います。

Azure Machine Learning ワークスペースの [データ] タブに移動します。
[データストア] に移動し、[workspaceblobstore (既定値)] を選択します。
[参照] メニューを使用して、収集された運用データを表示します。

MLｆlow モデルのデータを収集する

MLｆlow モデルを Azure Machine Learning オンラインエンドポイントにデプロイしている場合は、スタジオ UI の単一のトグルで運用推論データの収集を有効にできます。データコレクションをオンにすると、Azure Machine Learning はカスタムログコードを使用してスコアリングスクリプトを自動的にインストルメント化し、運用データがワークスペース Blob Storage に確実にログされるようになります。その後、モデルモニターはデータを使用して、運用環境での MLflow モデルのパフォーマンスを監視できます。

モデルのデプロイを構成している間に、運用データ収集を有効にすることができます。 [デプロイ] タブで、[データ収集] の [有効] を選びます。

データ収集を有効にすると、運用推論データが Azure Machine Learning ワークスペース Blob Storage にログされ、<endpoint_name>-<deployment_name>-model_inputs と <endpoint_name>-<deployment_name>-model_outputs という名前の 2 つのデータ資産が作成されます。これらのデータ資産は、デプロイを運用環境で使用するとリアルタイムで更新されます。その後、モデルモニターはデータ資産を使用して、運用環境でのモデルのパフォーマンスを監視できます。

次の方法で共有

リアルタイム推論用にデプロイされたモデルから運用データを収集する

前提条件

モデル監視のためのカスタムログを実行する

スコアリングスクリプトをカスタムログコードで更新する

カスタムな一意の ID をログに記録するようにスコアリングスクリプトを更新する

モデルパフォーマンスモニタリング用のデータを収集する

依存関係を更新する

デプロイ YAML を更新する

カスタム BLOB ストレージコンテナーにデータを収集する

データコレクションを使用してデプロイを作成する

ペイロードのログ記録を実行する

収集したデータを BLOB ストレージに格納する

大きなペイロードを格納する

バイナリデータを格納する

データコレクターのバッチ処理

スタジオ UI でデータを表示する

MLｆlow モデルのデータを収集する

フィードバック

その他のリソース

次の方法で共有

リアルタイム推論用にデプロイされたモデルから運用データを収集する

前提条件

モデル監視のためのカスタム ログを実行する

スコアリング スクリプトをカスタム ログ コードで更新する

カスタムな一意の ID をログに記録するようにスコアリング スクリプトを更新する

モデル パフォーマンス モニタリング用のデータを収集する

依存関係を更新する

デプロイ YAML を更新する

カスタム BLOB ストレージ コンテナーにデータを収集する

データ コレクションを使用してデプロイを作成する

ペイロードのログ記録を実行する

収集したデータを BLOB ストレージに格納する

大きなペイロードを格納する

バイナリ データを格納する

データ コレクターのバッチ処理

スタジオ UI でデータを表示する

MLｆlow モデルのデータを収集する

関連するコンテンツ

フィードバック

その他のリソース

モデル監視のためのカスタムログを実行する

スコアリングスクリプトをカスタムログコードで更新する

カスタムな一意の ID をログに記録するようにスコアリングスクリプトを更新する

モデルパフォーマンスモニタリング用のデータを収集する

カスタム BLOB ストレージコンテナーにデータを収集する

データコレクションを使用してデプロイを作成する

バイナリデータを格納する

データコレクターのバッチ処理