バッチエンドポイントに言語モデルをデプロイする

[アーティクル]
09/03/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

バッチエンドポイントを使用して、言語モデルのような、テキストデータに対するコストの高いモデルをデプロイできます。このチュートリアルでは、HuggingFace のモデルを使用して、長いシーケンスのテキストに対するテキストの概要作成を実行できるモデルをデプロイする方法について説明します。また、HuggingFace の optimum ライブラリと accelerate ライブラリを使用して推論の最適化を行う方法も示します。

このサンプルについて

使用するモデルは、HuggingFace の一般的なライブラリトランスフォーマーと、BART アーキテクチャを使用した Facebook の事前学習済みモデルを使用して構築されました。これは、論文「BART: 自然言語生成のためのシーケンスからシーケンスへのノイズ除去の事前学習」で紹介されました。このモデルには、デプロイに関して注意すべき次の制約があります。

最大 1024 個のトークンをシーケンスで処理できます。
英語でテキストの概要作成を行うために学習されています。
Torch をバックエンドとして使用します。

この記事の例は、azureml-examples リポジトリに含まれているコードサンプルを基にしています。 YAML や他のファイルのコピーや貼り付けを行う必要がないように、ローカル環境でコマンドを実行するには、次のコマンドを使ってリポジトリをクローンして、お使いのコーディング言語のフォルダーに移動します。

Azure CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

この例のファイルは、次の場所にあります。

cd endpoints/batch/deploy-models/huggingface-text-summarization

Jupyter ノートブックで経過をたどる

Jupyter Notebook で、このサンプルに従って実行できます。複製されたリポジトリで、ノートブック text-summarization-batch.ipynb を開きます。

前提条件

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Azure Machine Learning ワークスペース。ワークスペースを作成するには、「Azure Machine Learning ワークスペースの管理」を参照してください。
Azure Machine Learning ワークスペースでの次のアクセス許可:
- バッチエンドポイントとデプロイを作成または管理する場合: 所有者、共同作成者、または Microsoft.MachineLearningServices/workspaces/batchEndpoints/* アクセス許可が割り当てられているカスタムロールを使います。
- ワークスペースリソースグループに Azure Resource Manager のデプロイを作成する場合: 所有者、共同作成者、またはワークスペースがデプロイされるリソースグループでの Microsoft.Resources/deployments/write アクセス許可が割り当てられているカスタムロールを使います。
Azure Machine Learning CLI または Azure Machine Learning SDK for Python:
- Azure CLI
- Python
次のコマンドを実行して、Azure CLI と ml という Azure Machine Learning 用の拡張機能をインストールします。
```
az extension add -n ml
```
バッチエンドポイントのパイプラインコンポーネントのデプロイは、Azure CLI 用 ml 拡張機能のバージョン 2.7 で導入されています。 az extension update --name ml コマンドを使用して、最新バージョンを取得します。
次のコマンドを実行して、Azure Machine Learning SDK for Python をインストールします。
```
pip install azure-ai-ml
```
ModelBatchDeployment および PipelineComponentBatchDeployment クラスは、SDK のバージョン 1.7.0 で導入されました。 pip install -U azure-ai-ml コマンドを使用して、最新バージョンを取得します。

ワークスペースに接続する

ワークスペースは、Azure Machine Learning の最上位のリソースです。これは、Azure Machine Learning を使用するときに作成するすべての成果物を操作するための一元的な場所を提供します。このセクションでは、デプロイタスクを実行するワークスペースに接続します。

Azure CLI
Python

次のコマンドで、自分のサブスクリプション ID、ワークスペース名、リソースグループ名、場所を入力します。

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

必要なライブラリをインポートします。

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

ワークスペースの詳細を構成し、ワークスペースへのハンドルを取得します。

次のコマンドで、自分のサブスクリプション ID、リソースグループ名、ワークスペース名を入力します。
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

モデルを登録する

モデルのサイズのため、このリポジトリには含まれていません。代わりに、HuggingFace モデルのハブからコピーをダウンロードできます。使用している環境に、パッケージ transformers および torch がインストールされている必要があります。

%pip install transformers torch

次のコードを使用して、モデルをフォルダー model にダウンロードします:

from transformers import pipeline

model = pipeline("summarization", model="facebook/bart-large-cnn")
model_local_path = 'model'
summarizer.save_pretrained(model_local_path)

これで、このモデルを Azure Machine Learning レジストリに登録できるようになりました。

Azure CLI
Python

MODEL_NAME='bart-text-summarization'
az ml model create --name $MODEL_NAME --path "model"

model_name = 'bart-text-summarization'
model = ml_client.models.create_or_update(
    Model(name=model_name, path='model', type=AssetTypes.CUSTOM_MODEL)
)

エンドポイントの作成

text-summarization-batch という名前のバッチエンドポイントを作成し、そこに HuggingFace モデルをデプロイし、英語のテキストファイルに対してテキストの概要作成を実行します。

エンドポイントの名前を決めます。このエンドポイントの名前は、エンドポイントに関連付けられている URI に記載されます。そのため、バッチエンドポイント名は Azure リージョン内で一意である必要があります。たとえば、westus2 に存在できる mybatchendpoint という名前のバッチエンドポイントは 1 つだけです。
- Azure CLI
- Python
今回は、後で簡単に参照できるように、エンドポイント名を変数に配置しておきましょう。
```
ENDPOINT_NAME="text-summarization-batch"
```
今回は、後で簡単に参照できるように、エンドポイント名を変数に配置しておきましょう。
```
endpoint_name="text-summarization-batch"
```

バッチエンドポイントを構成する

Azure CLI
Python

次の YAML ファイルは、バッチエンドポイントを定義します。

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: text-summarization-batch
description: A batch endpoint for summarizing text using a HuggingFace transformer model.
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A batch endpoint for summarizing text using a HuggingFace transformer model.",
)

エンドポイントを作成します。

Azure CLI
Python

az ml batch-endpoint create --file endpoint.yml  --name $ENDPOINT_NAME

ml_client.batch_endpoints.begin_create_or_update(endpoint)

デプロイを作成する

モデルをホストするデプロイを作成しましょう。

バッチデプロイによって指定された CSV ファイルを読み取り、概要でモデルのスコアを返すことができるスコアリングスクリプトを作成する必要があります。次のスクリプトでは、これらのアクションが実行されます。

ハードウェア構成 (CPU と GPU) を検出し、それに応じてモデルを読み込む init 関数を示します。モデルとトークナイザーの両方がグローバル変数に読み込まれます。現在使用しているモデルのシーケンス長さの制限を考慮して、HuggingFace の pipeline オブジェクトは使用しません。
パフォーマンスを改善するために、optimum ライブラリと accelerate ライブラリを使用して、パフォーマンスのよいモデルの最適化を実行していることに注意してください。モデルまたはハードウェアでサポートされていない場合は、このような最適化を行わずにデプロイを実行します。
バッチデプロイによって提供されるミニバッチごとに実行される run 関数を示す。
run 関数は datasets ライブラリを使用してバッチ全体を読み取る。概要作成を行う必要があるテキストは text 列にあります。
この run メソッドは、テキストの各行を反復処理し、予測を実行する。これは非常に高価なモデルであるため、ファイル全体に対して予測を実行すると、メモリ不足の例外が発生します。モデルは transformers からの pipeline オブジェクトで実行されないことに注意してください。これは、長いシーケンスのテキストと、使用している基になるモデルの 1024 個のトークンの制限を考慮するために行われます。
指定されたテキストの概要を返します。

code/batch_driver.py

import os
import time
import torch
import subprocess
import mlflow
from pprint import pprint
from transformers import AutoTokenizer, BartForConditionalGeneration
from optimum.bettertransformer import BetterTransformer
from datasets import load_dataset


def init():
    global model
    global tokenizer
    global device

    cuda_available = torch.cuda.is_available()
    device = "cuda" if cuda_available else "cpu"

    if cuda_available:
        print(f"[INFO] CUDA version: {torch.version.cuda}")
        print(f"[INFO] ID of current CUDA device: {torch.cuda.current_device()}")
        print("[INFO] nvidia-smi output:")
        pprint(
            subprocess.run(["nvidia-smi"], stdout=subprocess.PIPE).stdout.decode(
                "utf-8"
            )
        )
    else:
        print(
            "[WARN] CUDA acceleration is not available. This model takes hours to run on medium size data."
        )

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    model_path = os.path.join(os.environ["AZUREML_MODEL_DIR"], "model")

    # load the tokenizer
    tokenizer = AutoTokenizer.from_pretrained(
        model_path, truncation=True, max_length=1024
    )

    # Load the model
    try:
        model = BartForConditionalGeneration.from_pretrained(
            model_path, device_map="auto"
        )
    except Exception as e:
        print(
            f"[ERROR] Error happened when loading the model on GPU or the default device. Error: {e}"
        )
        print("[INFO] Trying on CPU.")
        model = BartForConditionalGeneration.from_pretrained(model_path)
        device = "cpu"

    # Optimize the model
    if device != "cpu":
        try:
            model = BetterTransformer.transform(model, keep_original_model=False)
            print("[INFO] BetterTransformer loaded.")
        except Exception as e:
            print(
                f"[ERROR] Error when converting to BetterTransformer. An unoptimized version of the model will be used.\n\t> {e}"
            )

    mlflow.log_param("device", device)
    mlflow.log_param("model", type(model).__name__)


def run(mini_batch):
    resultList = []

    print(f"[INFO] Reading new mini-batch of {len(mini_batch)} file(s).")
    ds = load_dataset("csv", data_files={"score": mini_batch})

    start_time = time.perf_counter()
    for idx, text in enumerate(ds["score"]["text"]):
        # perform inference
        inputs = tokenizer.batch_encode_plus(
            [text], truncation=True, padding=True, max_length=1024, return_tensors="pt"
        )
        input_ids = inputs["input_ids"].to(device)
        summary_ids = model.generate(
            input_ids, max_length=130, min_length=30, do_sample=False
        )
        summaries = tokenizer.batch_decode(
            summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
        )

        # Get results:
        resultList.append(summaries[0])
        rps = idx / (time.perf_counter() - start_time + 00000.1)
        print("Rows per second:", rps)

    mlflow.log_metric("rows_per_second", rps)
    return resultList

ヒント

ファイルはデプロイによってミニバッチで提供されますが、このスコアリングスクリプトは一度に 1 つの行を処理します。これは、バッチ全体を読み込んで一度にモデルに送信しようとすると、バッチ Executor (OOM の実行) にメモリ不足が発生する可能性があるため、高価なモデル (トランスフォーマーなど) を扱う際に一般的なパターンです。

デプロイを実行する環境を示す必要があります。この場合、モデルは Torch で実行され、HuggingFace のライブラリ transformers、accelerate、および optimum が必要です。 Azure Machine Learning には、Torch と GPU がサポートされている環境が既に用意されています。 conda.yaml ファイルにいくつかの依存関係を追加するだけです。

environment/torch200-conda.yaml
```
name: huggingface-env
channels:
  - conda-forge
dependencies:
  - python=3.8.5
  - pip
  - pip:
    - torch==2.0
    - transformers
    - accelerate
    - optimum
    - datasets
    - mlflow
    - azureml-mlflow
    - azureml-core
    - azureml-dataset-runtime[fuse]
```
先ほど説明した conda ファイルを次のように使用できます。
- Azure CLI
- Python
環境定義はデプロイファイルに含まれています。

deployment.yml
```
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
```
その環境に対する参照を取得しましょう。
```
environment = Environment(
    name="torch200-transformers-gpu",
    conda_file="environment/torch200-conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest",
)
```
重要

作成した環境 torch200-transformers-gpu では、Torch 2.0 と Ubuntu 20.04 を実行するために CUDA 11.8 互換のハードウェアデバイスが必要です。 GPU デバイスでこのバージョンの CUDA がサポートされていない場合は、代替の torch113-conda.yaml conda 環境 (リポジトリでも利用可能) を確認できます。この環境では、CUDA 10.1 で Ubuntu 18.04 を使用して Torch 1.3 が実行されます。ただし、optimum および accelerate ライブラリを使用したアクセラレーションは、この構成ではサポートされません。
各デプロイはコンピューティングクラスターで実行されます。 Azure Machine Learning コンピューティングクラスター(AmlCompute) または Kubernetes クラスターの両方がサポートされています。この例では、モデルは GPU アクセラレーションの恩恵を受けることができるため、GPU クラスターを使用します。
- Azure CLI
- Python
```
az ml compute create -n gpu-cluster --type amlcompute --size STANDARD_NV6 --min-instances 0 --max-instances 2
```
```
compute_name = "gpu-cluster"
compute_cluster = AmlCompute(
    name=compute_name,
    description="GPU cluster compute",
    size="Standard_NV6",
    min_instances=0,
    max_instances=2,
)
ml_client.begin_create_or_update(compute_cluster)
```
注意

この時点では、コンピューティングに課金はされません。バッチエンドポイントが呼び出されてバッチスコアリングジョブが送信されるまで、クラスターは 0 ノードのままだからです。 AmlCompute のコストの管理および最適化について確認してください。

次に、デプロイを作成しましょう。

Azure CLI
Python

作成されたエンドポイントの下に新しいデプロイを作成するには、次のような YAML 構成を作成します。追加のプロパティについては、完全なバッチエンドポイント YAML スキーマを確認してください。

deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: text-summarization-batch
name: text-summarization-optimum
description: A text summarization deployment implemented with HuggingFace and BART architecture with GPU optimization using Optimum.
type: model
model: azureml:bart-text-summarization@latest
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
  conda_file: environment/torch200-conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 1
  mini_batch_size: 1
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 1
    timeout: 3000
  error_threshold: -1
  logging_level: info

次に、次のコマンドを使ってデプロイを作成します。

az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default

指定された環境とスコアリングスクリプトを使用して新しいデプロイを作成するには、次のコードを使用します。

deployment = BatchDeployment(
    name="text-summarization-hfbart",
    description="A text summarization deployment implemented with HuggingFace and BART architecture",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    instance_count=2,
    max_concurrency_per_instance=1,
    mini_batch_size=1,
    output_action=BatchDeploymentOutputAction.APPEND_ROW,
    output_file_name="predictions.csv",
    retry_settings=BatchRetrySettings(max_retries=3, timeout=3000),
    logging_level="info",
)

次に、次のコマンドを使ってデプロイを作成します。

ml_client.batch_deployments.begin_create_or_update(deployment)

重要

このデプロイでは、retry_settings パラメータの timeout に高い値が設定されています。その理由は、実行しているモデルの性質によるものです。これは非常に高価なモデルであり、1 つの行での推論には最大 60 秒かかる場合があります。 timeout パラメーターは、Batch Deployment が各ミニバッチの処理を完了するまでのスコアリングスクリプトの待機時間を制御します。このモデルでは予測が行ごとに実行されるため、長いファイルの処理には時間がかかる場合があります。また、バッチあたりのファイル数が 1 (mini_batch_size=1) に設定されていることにも注意してください。これも、現在の作業の性質に関連しています。バッチごとに1ファイルずつ処理すると、それだけで十分なコストがかかります。これは NLP 処理のパターンであることがわかります。

エンドポイント内で特定のデプロイを呼び出すこともできますが、通常はエンドポイント自体を呼び出し、使用するデプロイはエンドポイントで決定されるようにします。このようなデプロイは、"既定" のデプロイと呼ばれます。これにより、エンドポイントを呼び出すユーザーとのコントラクトを変更せずに、既定のデプロイを変更し、デプロイを提供するモデルを変更することができます。既定のデプロイを更新するには、次の手順に従います。
- Azure CLI
- Python
```
DEPLOYMENT_NAME="text-summarization-hfbart"
az ml batch-endpoint update --name $ENDPOINT_NAME --set defaults.deployment_name=$DEPLOYMENT_NAME
```
```
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint)
```
この時点で、バッチエンドポイントを使用する準備は完了です。

デプロイをテストする

エンドポイントをテストするために、データセット BillSum: 米国法律の自動概要作成のためのコーパスのサンプルを使用します。このサンプルは、フォルダー data のリポジトリに含まれています。データの形式は CSV であり、概要を作成するコンテンツは、モデルで想定される列 text の下にあります。

エンドポイントを呼び出しましょう。
- Azure CLI
- Python
```
JOB_NAME=$(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input data --input-type uri_folder --query name -o tsv)
```
注意

ユーティリティ jq は、すべてのインストールでインストールされるとは限りません。手順はこのリンクから確認できます。
ヒント

エンドポイントを呼び出すときのパラメーター inputs と input の違いは何ですか?

一般的には invoke メソッドで辞書パラメーター inputs = {} を使用すると、"モデルデプロイ" または "パイプラインデプロイ" を含むバッチエンドポイントに任意の個数の必須入力を与えることができます。

"モデルデプロイ" の場合は、デプロイの入力データの場所を指定する簡単な方法として input パラメーターを使用できます。このアプローチが機能するのは、モデルデプロイが常に 1 つだけのデータ入力を受け取るためです。
```
input = Input(type=AssetTypes.URI_FOLDER, path="data")
job = ml_client.batch_endpoints.invoke(
   endpoint_name=endpoint.name,
   input=input,
)
```
ヒント

ローカルパスを入力として示すと、データが Azure Machine Learning の既定のストレージアカウントにアップロードされることに注意してください。
コマンドが戻ると、すぐにバッチジョブが開始されます。ジョブの状態は、完了するまで監視できます。
- Azure CLI
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```
デプロイが完了したら、予測をダウンロードできます。
- Azure CLI
- Python
予測をダウンロードするには、次のコマンドを使用します。
```
az ml job download --name $JOB_NAME --output-name score --download-path .
```
```
ml_client.jobs.download(name=job.name, output_name='score', download_path='./')
```

テキストを処理するモデルをデプロイするときの考慮事項

このチュートリアルの注意事項で説明したように、テキストの処理には、バッチデプロイ用の特定の構成を必要とするいくつかの特徴がある場合があります。バッチデプロイを設計するときは、次の考慮事項に配慮してください。

一部の NLP モデルは、メモリとコンピューティング時間の観点から非常に高価な場合があります。その場合は、各ミニバッチに含まれるファイルの数を減らすことを検討してください。上記の例では、この数はバッチごとに最小 1 ファイルに設定されています。このケースは当てはまらないかも知れませんが、モデルが一度にスコアリングできるファイルの数を考慮してください。ディープラーニングモデルでは、入力のサイズとモデルの占有領域の関係が線形ではない可能性があることに注意してください。
モデルが (この例のように) 一度に 1 つのファイルを処理できない場合は、入力データを行/チャンクで読み取る方法を検討してください。高いスループットまたはハードウェア使用率を実現する必要がある場合は、行レベルでバッチ処理を実装します。
デプロイの timeout 値を、モデルのコストと処理するデータ量に応じて設定します。 timeout は、バッチデプロイが、指定されたバッチのスコアリングスクリプトの実行を待機する時間を示しています。バッチに多数のファイルまたは多数の行があるファイルがある場合、このパラメーターの適切な値に影響します。

テキストを処理する MLflow モデルに関する考慮事項

上記と同じ考慮事項が MLflow モデルに適用されます。ただし、MLflow モデルのデプロイにはスコアリングスクリプトを提供する必要がないため、記載されている推奨事項のいくつかには異なるアプローチが必要です。

バッチエンドポイントの MLflow モデルでは、長いシーケンスのテキストを含む可能性がある入力データとしての表形式データの読み取りがサポートされます。サポートされているファイルの種類の詳細については、「ファイルの種類のサポート」を参照してください。
バッチデプロイでは、ファイル全体の内容を Pandas データフレームで使用して、MLflow モデルの予測関数を呼び出します。入力データに多数の行が含まれている場合は、複雑なモデル (このチュートリアルで説明したモデルなど) を実行すると、メモリ不足の例外が発生する可能性があります。このような場合は、次の点を考慮してください。
- モデルで予測を実行する方法をカスタマイズし、バッチ処理を実装します。 MLflow モデルの推論をカスタマイズする方法については、「カスタムモデルのログ記録」を参照してください。
- スコアリングスクリプトを作成し、mlflow.<flavor>.load_model() を使用してモデルを読み込みます。詳細については、「MLflow モデルとスコアリングスクリプトの使用」を参照してください。

次の方法で共有

バッチエンドポイントに言語モデルをデプロイする

このサンプルについて

Jupyter ノートブックで経過をたどる

前提条件

ワークスペースに接続する

モデルを登録する

エンドポイントの作成

デプロイを作成する

デプロイをテストする

テキストを処理するモデルをデプロイするときの考慮事項

テキストを処理する MLflow モデルに関する考慮事項

フィードバック

その他のリソース

次の方法で共有

バッチ エンドポイントに言語モデルをデプロイする

このサンプルについて

Jupyter ノートブックで経過をたどる

前提条件

ワークスペースに接続する

モデルを登録する

エンドポイントの作成

デプロイを作成する

デプロイをテストする

テキストを処理するモデルをデプロイするときの考慮事項

テキストを処理する MLflow モデルに関する考慮事項

フィードバック

その他のリソース

バッチエンドポイントに言語モデルをデプロイする