Triton 推論サーバーを使用した高パフォーマンスのサービス

[アーティクル]
11/09/2023

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning でオンラインエンドポイントと共に NVIDIA Triton 推論サーバーを使用する方法について説明します。

Triton は、推論用に最適化されたマルチフレームワークのオープンソースソフトウェアです。 TensorFlow、ONNX Runtime、PyTorch、NVIDIA TensorRT などの一般的な機械学習フレームワークをサポートしています。 CPU または GPU のワークロードに使用できます。

Triton モデルをオンラインエンドポイントにデプロイするときに利用できる方法は主に 2 つあります。コードなしデプロイとフルコード (Bring Your Own Container) デプロイです。

Triton モデルのコードなしのデプロイは、デプロイするTritonモデルを持ち込むだけでよいので、シンプルなデプロイ方法です。
Triton モデルのフルコードデプロイ (Bring Your Own Container) は、Triton 推論サーバーで使用できる構成のカスタマイズを完全に制御できるように、それらをデプロイするためのより高度な方法です。

どちらのオプションでも、Triton 推論サーバーは、NVIDIA によって定義された Triton モデルに基づいて推論を実行します。たとえば、アンサンブルモデルは、より高度なシナリオに使用できます。

Triton は、マネージドオンラインエンドポイントと Kubernetes オンラインエンドポイントの両方でサポートされています。

この記事では、Triton のコードなしのデプロイを使用して、マネージドオンラインエンドポイントにモデルをデプロイする方法について説明します。 CLI (コマンドライン)、Python SDK v2、Azure Machine Learning スタジオの使用に関する情報を提供します。 Triton 推論サーバーの構成を使用してさらに直接カスタマイズする場合は、カスタムコンテナーを使用してモデルをデプロイする方法に関するページと、Triton の BYOC の例 (デプロイ定義とエンドツーエンドスクリプト) を参照してください。

Note

NVIDIA Triton Inference Server コンテナーの使用は NVIDIA AI Enterprise Software ライセンス契約で管理され、エンタープライズ製品サブスクリプションなしで 90 日間使用できます。詳細については、Azure Machine Learning の NVIDIA AI Enterprise に関するページを参照してください。

前提条件

Azure CLI
Python
[スタジオ](#tab/azure-studio)

この記事の手順に従う前に、次の前提条件が満たされていることをご確認ください。

Azure CLI と Azure CLI の ml 拡張機能。詳しくは、CLI (v2) のインストール、設定、使用に関するページをご覧ください。

重要

この記事の CLI の例では、Bash (または互換性のある) シェルを使用していることを前提としています。たとえば、Linux システムや Linux 用 Windows サブシステムなどです。
Azure Machine Learning ワークスペース。お持ちでない場合は、CLI (v2) のインストール、セットアップ、使用に関する記事の手順を使用して作成します。

動作する Python 3.8 (以上) の環境。
スコアリング用に追加の Python パッケージをインストールしている必要があり、以下のコードでインストールできます。これには次のようなものがあります。
- Numpy - 配列と数値計算ライブラリ
- Triton 推論サーバークライアント - Triton 推論サーバーへの要求を容易にする
- Pillow - 画像操作用のライブラリ
- Gevent - Triton サーバーに接続するときに使用されるネットワークライブラリ

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Azure サブスクリプションの NCv3 シリーズ VM へのアクセス。

重要

このシリーズ VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。

NVIDIA Triton 推論サーバーには特定のモデルリポジトリ構造が必要です。この構造には、モデルごとのディレクトリとモデルバージョンのサブディレクトリが含まれています。各モデルバージョンのサブディレクトリの内容は、モデルの種類とモデルをサポートするバックエンドの要件によって決まります。すべてのモデルリポジトリ構造を表示する場合: https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

このドキュメントの情報は、ONNX 形式で格納されたモデルの使用に基づいているため、モデルリポジトリのディレクトリ構造は <model-repository>/<model-name>/1/model.onnx です。具体的には、このモデルで画像の識別を行います。

この記事の情報は、azureml-examples リポジトリに含まれているコードサンプルを基にしています。 YAML などのファイルをコピーして貼り付けることなくコマンドをローカルで実行するには、リポジトリを複製し、ディレクトリをリポジトリ内の cli ディレクトリに変更します。

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

まだ Azure CLI の既定値を設定していない場合は、既定の設定を保存する必要があります。サブスクリプション、ワークスペース、およびリソースグループの値が複数回渡されることを防ぐには、以下のコマンドを使用します。次のパラメーターを、実際の構成の値に置き換えます。

<subscription> は、Azure サブスクリプション ID に置き換えてください。
<workspace> は、ご利用の Azure Machine Learning ワークスペース名に置き換えます。
<resource-group> は、ワークスペースが含まれている Azure リソースグループに置き換えます。
<location> は、ワークスペースが含まれている Azure リージョンに置き換えます。

ヒント

az configure -l コマンドを使用すると、現在の既定値を確認できます。

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

適用対象: Python SDK azure-ai-ml v2 (現行)

この記事の手順に従う前に、次の前提条件が満たされていることをご確認ください。

Azure Machine Learning ワークスペース。所有していない場合は、クイックスタート: ワークスペースリソースの作成に関する記事の手順に従って作成してください。
Python SDK v2 をインストールするには、次のコマンドを使用します。
```
pip install azure-ai-ml azure-identity
```
SDK の既存のインストールを最新バージョンに更新するには、次のコマンドを使用します。
```
pip install --upgrade azure-ai-ml azure-identity
```
詳細については、「Azure Machine Learning 用 Python SDK v2 のインストール」を参照してください。

動作する Python 3.8 (以上) の環境。
スコアリング用に追加の Python パッケージをインストールしている必要があり、以下のコードでインストールできます。これには次のようなものがあります。
- Numpy - 配列と数値計算ライブラリ
- Triton 推論サーバークライアント - Triton 推論サーバーへの要求を容易にする
- Pillow - 画像操作用のライブラリ
- Gevent - Triton サーバーに接続するときに使用されるネットワークライブラリ
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Azure サブスクリプションの NCv3 シリーズ VM へのアクセス。

重要

このシリーズ VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。

この記事の情報は、azureml-examples リポジトリに含まれている online-endpoints-triton.ipynb ノートブックを基にしています。ファイルをコピーして貼り付けることなくコマンドをローカルで実行するには、リポジトリを複製し、ディレクトリをリポジトリ内の sdk/endpoints/online/triton/single-model/ ディレクトリに変更します。

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

デプロイ構成を定義する

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象: Azure CLI ML 拡張機能 v2 (現行)

このセクションでは、Machine Learning 拡張機能 (v2) を備えた Azure CLI を使用してマネージドオンラインエンドポイントにデプロイする方法を示します。

重要

Triton のコードなしのデプロイの場合、 ローカルエンドポイントを使用したテスト は現在サポートされていません。

複数のコマンドでパスを入力せずにすむように、次のコマンドを使用して BASE_PATH 環境変数を設定します。この変数は、モデルとそれに関連する YAML 構成ファイルが格納されているディレクトリを示します。
```
BASE_PATH=endpoints/online/triton/single-model
```
次のコマンドを使用して、作成するエンドポイントの名前を設定します。この例では、エンドポイントにランダムな名前を作成します。
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
エンドポイントの YAML 構成ファイルを作成します。次の例では、エンドポイントの名前と認証モードを構成します。次のコマンドで使用されているものは、前に複製した azureml-examples リポジトリ内の /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml にあります。

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
デプロイの YAML 構成ファイルを作成します。次の例では、前の手順で定義したエンドポイントに対して blue という名前のデプロイを構成します。次のコマンドで使用されているものは、前に複製した azureml-examples リポジトリ内の /cli/endpoints/online/triton/single-model/create-managed-deployment.yml にあります。

重要

Triton のコードなしのデプロイ (NCD) を機能させるには、type を triton_model に設定する必要があります (type: triton_model)。詳細については、「CLI (v2) モデル YAML スキーマ」を参照してください。

このデプロイでは、Standard_NC6s_v3 VM を使用します。この VM を使用するには、事前にサブスクリプションのクォータの引き上げを要求しなければならない場合があります。詳細については、「NCv3 シリーズ」を参照してください。
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

適用対象: Python SDK azure-ai-ml v2 (現行)

このセクションでは、Azure Machine Learning Python SDK (v2) を使用して、マネージドオンラインエンドポイントにデプロイする Triton デプロイを定義する方法について説明します。

重要

Triton のコードなしのデプロイの場合、 ローカルエンドポイントを使用したテスト は現在サポートされていません。

ワークスペースに接続するには、識別子パラメーター (サブスクリプション、リソースグループ、ワークスペース名) が必要です。
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
次のコマンドを使用して、作成するエンドポイントの名前を設定します。この例では、エンドポイントにランダムな名前を作成します。
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
上記の詳細を azure.ai.ml の MLClient で使用して、必要な Azure Machine Learning ワークスペースへのハンドルを取得します。資格情報を構成してワークスペースに接続する方法の詳細については、構成ノートブックを参照してください。
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
エンドポイントを構成する ManagedOnlineEndpoint オブジェクトを作成します。次の例では、エンドポイントの名前と認証モードを構成します。
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

デプロイを構成する ManagedOnlineDeployment オブジェクトを作成します。次の例では、前の手順で定義したエンドポイントに対して blue という名前のデプロイを構成し、ローカルモデルをインラインで定義します。

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

このセクションでは、Azure Machine Learning スタジオを使用して、マネージドオンラインエンドポイントで Triton デプロイを定義する方法を示します。

次の YAML および CLI コマンドを使用して、モデルを Triton 形式で登録します。 YAML では、https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model の densenet-onnx モデルを使用します

create-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
次のスクリーンショットは、Azure Machine Learning スタジオの [Models](モデル) ページで登録済みモデルがどのように表示されるかを示しています。

$[Models]$モデル$ ページの Triton モデル形式を示すスクリーンショット。$
スタジオから、ワークスペースを選択し、 [エンドポイント] または [Models](モデル) ページを使用してエンドポイントのデプロイを作成します。
- [エンドポイント] ページ
- [Models](モデル) ページ
1. [エンドポイント] ページで、[作成] を選択します。
2. エンドポイントの名前と認証の種類を指定し、 [次へ] を選択します。
3. モデルを選択する場合は、前に登録した Triton モデルを選択します。 [次へ] をクリックして続行します。
4. Triton 形式で登録されたモデルを選択すると、ウィザードの [環境] ステップではスコアリングスクリプトと環境は必要ありません。
1. Triton モデルを選択し、 [展開する] を選択します。プロンプトが表示されたら、[リアルタイムエンドポイントへのデプロイ] を選択します。

Deploy to Azure (Azure へのデプロイ)

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象: Azure CLI ML 拡張機能 v2 (現行)

YAML 構成を使用して新しいエンドポイントを作成するには、次のコマンドを使用します。
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

YAML 構成を使用してデプロイを作成するには、次のコマンドを使用します。

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

適用対象: Python SDK azure-ai-ml v2 (現行)

ManagedOnlineEndpoint オブジェクトを使用して新しいエンドポイントを作成するには、次のコマンドを使用します。
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
ManagedOnlineDeployment オブジェクトを使用してデプロイを作成するには、次のコマンドを使用します。
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
デプロイが完了すると、そのトラフィック値は 0% に設定されます。トラフィックを 100% に更新します。
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

エンドポイントをテストする

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象: Azure CLI ML 拡張機能 v2 (現行)

デプロイが完了したら、次のコマンドを使用して、デプロイされたエンドポイントにスコアリング要求を行います。

ヒント

スコアリングには、azureml-examples リポジトリのファイル /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py が使用されます。エンドポイントに渡される画像には、サイズ、種類、形式の要件を満たすための前処理と、予測ラベルを示すための後処理が必要です。 triton_densenet_scoring.py では、tritonclient.http ライブラリを使用して Triton 推論サーバーと通信します。このファイルはクライアント側で実行されます。

エンドポイントのスコアリング URI を取得するには、次のコマンドを使用します。

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

認証キーを取得するには、次のコマンドを使用します。

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

エンドポイントを使用してデータをスコア付けするには、次のコマンドを使用します。これにより、クジャクの画像 (https://aka.ms/peacock-pic) がエンドポイントに送信されます。
```
python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg
```
スクリプトからの応答は次のテキストのようになります。
```
Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK
```

適用対象: Python SDK azure-ai-ml v2 (現行)

エンドポイントのスコアリング URI を取得するには、次のコマンドを使用します。
```
endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri
```
認証キーを取得するには、次のコマンドを使用します。keys = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

次のスコアリングコードは、Triton 推論サーバークライアントを使用して、孔雀の画像をエンドポイントに送信します。このスクリプトは、この例 (Triton を使用してオンラインエンドポイントにモデルをデプロイする) のコンパニオンノートブックで使用できます。

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

スクリプトからの応答は次のテキストのようになります。

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

エンドポイントとモデルを削除する

Azure CLI
Python
[スタジオ](#tab/azure-studio)

適用対象: Azure CLI ML 拡張機能 v2 (現行)

エンドポイントを使い終えたら、次のコマンドを使用して削除します。
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```
モデルをアーカイブするには次のコマンドを使用します。
```
az ml model archive --name $MODEL_NAME --version $MODEL_VERSION
```

適用対象: Python SDK azure-ai-ml v2 (現行)

エンドポイントを削除します。エンドポイントを削除すると、子デプロイも削除されますが、関連付けられている環境やモデルはアーカイブされません。
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```
次のコードを使用してモデルをアーカイブします。
```
ml_client.models.archive(name=model_name, version=model_version)
```

次のステップ

詳細については、次の記事を参照してください。

Triton 推論サーバーを使用した高パフォーマンスのサービス

前提条件

デプロイ構成を定義する

Deploy to Azure (Azure へのデプロイ)

エンドポイントをテストする

エンドポイントとモデルを削除する

次のステップ

その他のリソース