バッチエンドポイント

[アーティクル]
04/15/2024

Azure Machine Learning を使用すると、バッチエンドポイントとデプロイを実装して、機械学習モデルとパイプラインを使用して実行時間の長い非同期推論を実行できます。機械学習モデルまたはパイプラインをトレーニングするときは、他のユーザーが新しい入力データを使って予測を生成できるように、それをデプロイする必要があります。モデルまたはパイプラインを使用して予測を生成するこのプロセスは、"推論" と呼ばれます。

バッチエンドポイントは、データへのポインターを受け取り、ジョブを非同期に実行して、複数のコンピューティングクラスターでデータを並列に処理します。バッチエンドポイントは、さらに詳細な分析のために、出力をデータストアに格納します。バッチエンドポイントは、次の場合に使用します。

実行に長い時間がかかるコストの高いモデルまたはパイプラインがある。
機械学習パイプラインを運用化し、コンポーネントを再利用したいと考えている。
複数のファイルに分散された大量のデータに対して推論を実行する必要がある
低遅延を必要としない
モデルの入力は、ストレージアカウントまたは Azure Machine Learning データ資産に格納される。
並列処理の恩恵を受けることができる

バッチデプロイ

デプロイは、エンドポイントが提供する機能を実装するために必要なリソースとコンピューティングのセットです。各エンドポイントは、構成が異なる複数のデプロイをホストできます。この機能は、デプロイによって定義された "実装の詳細" から "エンドポイントのインターフェイスを分離する" のに役立ちます。バッチエンドポイントが呼び出されると、クライアントは既定のデプロイに自動的にルーティングされます。この既定のデプロイは、いつでも構成および変更できます。

Azure Machine Learning バッチエンドポイントでは、次の 2 種類のデプロイが可能です。

モデルデプロイ
パイプラインコンポーネントデプロイ

モデルデプロイ

モデルデプロイにより、大規模なモデル推論の運用化が可能になり、低遅延かつ非同期的な方法で大量のデータを処理できます。 Azure Machine Learning は、コンピューティングクラスター内の複数のノードにわたって推論プロセスの並列化を提供して、スケーラビリティを自動的にインストルメント化します。

モデルデプロイは、次の場合に使用します。

推論の実行に長い時間がかかるコストの高いモデルがある。
複数のファイルに分散された大量のデータに対して推論を実行する必要がある
低遅延を必要としない
並列処理の恩恵を受けることができる

モデルデプロイの主な利点は、オンラインエンドポイントへのリアルタイム推論にデプロイされているのと同じ資産を使用できることですが、それらを大規模に一括して実行できるようになりました。モデルで単純な前処理または後処理が必要な場合は、必要なデータ変換を実行するスコアリングスクリプトを作成できます。

バッチエンドポイントでモデルデプロイを作成するには、次の要素を指定する必要があります。

モデル
コンピューティングクラスター
スコアリングスクリプト (MLflow モデルの場合は省略可能)
環境 (MLflow モデルの場合は省略可能)

最初のモデルデプロイを作成する

パイプラインコンポーネントデプロイ

パイプラインコンポーネントデプロイを使用すると、処理グラフ全体 (パイプライン) を運用化して、短い待機時間で非同期的にバッチ推論を実行できます。

パイプラインコンポーネントデプロイは、次の場合に使用します。

複数の手順で分解できる完全なコンピューティンググラフを運用化する必要がある。
推論パイプラインでトレーニングパイプラインのコンポーネントを再利用する必要があります。
低遅延を必要としない

パイプラインコンポーネントの主な利点は、プラットフォームに既に存在するコンポーネントの再利用性と、複雑な推論ルーチンを運用化する機能です。

バッチエンドポイントでパイプラインコンポーネントデプロイを作成するには、次の要素を指定する必要があります。

パイプラインコンポーネント
コンピューティングクラスター構成

最初のパイプラインコンポーネントデプロイを作成する

バッチエンドポイントを使用すると、既存のパイプラインジョブからパイプラインコンポーネントデプロイを作成することもできます。これを行うと、Azure Machine Learning によって、ジョブからパイプラインコンポーネントが自動的に作成されます。これにより、このようなデプロイの使用が簡略化されます。ただし、MLOps のプラクティスを効率化するために、パイプラインコンポーネントを明示的に作成することがベストプラクティスです。

コスト管理

バッチエンドポイントを呼び出すと、非同期バッチ推論ジョブがトリガーされます。 Azure Machine Learning では、ジョブの開始時にコンピューティングリソースが自動的にプロビジョニングされ、ジョブの完了時に自動的に割り当てが解除されます。この方法により、コンピューティングを使用した場合にのみ料金が発生します。

ヒント

モデルをデプロイするときに、個々のバッチ推論ジョブのコンピューティングリソース設定 (インスタンス数など) と詳細設定 (ミニバッチサイズ、エラーしきい値など) をオーバーライドすることができます。これらの特定の構成を活用することで、実行を高速化し、コストを削減できる場合があります。

バッチエンドポイントは、優先順位の低い VM でも実行できます。バッチエンドポイントは、割り当て解除された VM から自動的に復旧できます。また、推論用のモデルをデプロイする場合、中断したところから処理を再開できます。優先順位の低い VM を使用してバッチ推論ワークロードのコストを削減する方法の詳細については、バッチエンドポイントで低優先度の VM を使用する方法に関する記事を参照してください。

最後に、Azure Machine Learning ではバッチエンドポイントまたはバッチデプロイ自体には請求が発生しないため、シナリオに最も適した形にエンドポイントとデプロイを編成できます。エンドポイントとデプロイでは、独立したクラスターまたは共有クラスターを使用できるため、ジョブが消費するコンピューティングをきめ細かく制御できます。クラスターで scale-to-zero を使用して、アイドル状態のときはリソースが消費されないようにします。

MLOps プラクティスを効率化する

バッチエンドポイントでは、同じエンドポイント下で複数のデプロイを処理できるため、コンシューマーがエンドポイントの呼び出しに使用する URL を変更することなく、エンドポイントの実装を変更できます。

エンドポイント自体に影響を与えることなく、デプロイを追加、削除、更新できます。

同じエンドポイント下で複数のデプロイがどのように使用されるかを示す図。

柔軟なデータソースとストレージ

バッチエンドポイントは、ストレージのデータを直接読み書きします。 Azure Machine Learning データストア、Azure Machine Learning データ資産、またはストレージアカウントを入力として指定できます。サポートされている入力オプションとその指定方法の詳細については、「バッチエンドポイントのジョブと入力データを作成する」を参照してください。

セキュリティ

バッチエンドポイントは、エンタープライズ環境で運用レベルのワークロードを扱うために必要なすべての機能を提供します。ユーザープリンシパル (ユーザーアカウントなど) またはサービスプリンシパル (マネージドまたはアンマネージド ID など) を使用して、セキュリティで保護されたワークスペースでのプライベートネットワークと Microsoft Entra 認証をサポートします。バッチエンドポイントによって生成されたジョブは、呼び出し元の ID で実行されるため、あらゆるシナリオを柔軟に実装できます。バッチエンドポイントの使用中の承認の詳細については、バッチエンドポイントでの認証方法に関する記事を参照してください。

バッチエンドポイントでネットワーク分離を構成する

バッチ エンドポイント

バッチ デプロイ

モデル デプロイ

パイプライン コンポーネント デプロイ