Azure での Python モデルのバッチスコアリング

Azure Container Registry

Azure Event Hubs

Azure Machine Learning

Azure SQL データベース

Azure Stream Analytics

このアーキテクチャガイドでは、 Azure Machine Learning でバッチスコアリングモデルのスケーラブルなソリューションをビルドする方法を示します。このソリューションはテンプレートとして使用でき、さまざまな問題に対応するように汎用化できます。

アーキテクチャ

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

このアーキテクチャガイドは、インジェストプロセスがデータ型に適合している場合、ストリーミングデータと静的データの両方に適用できます。次の手順とコンポーネントでは、これら 2 種類のデータのインジェストについて説明します。

データのストリーミング:

データのストリーミングは IoT センサーから始まります。ここでは、新しいイベントは頻繁にストリーミングされます。
受信ストリーミングイベントは Azure Event Hubs を使用してキューに登録され、Azure Stream Analytics を使用して事前処理されます。
- Azure Event Hubs。このメッセージインジェストサービスでは、1 秒あたり数百万件のイベントメッセージを取り込むことができます。このアーキテクチャでは、センサーがこのイベントハブにデータストリームを送信します。
- Azure Stream Analytics。イベント処理エンジンです。 Stream Analytics ジョブがイベントハブからデータストリームを読み取り、ストリーム処理を実行します。

静的データ:

静的データセットは、 Azure Data Lake Storage 内にファイルとして、あるいは Azure Synapse または Azure SQL Database に表形式で格納できます。
Azure Data Factory を使用して、格納されているデータセットを集計または前処理できます。

データインジェスト後の残りのアーキテクチャは、ストリーミングデータと静的データの両方で等しく、次の手順とコンポーネントで構成されます。

取り込まれ、集約、または前処理されたデータは、 Azure Data Lake Storage 内にドキュメントとして保存することも、 Azure Synapse または Azure SQL Databaseに表形式で保存することもできます。このデータは、次に Azure Machine Learning によって使用されます。
Azure Machine Learning は、大規模な機械学習モデルのトレーニング、デプロイ、および管理に使用されます。バッチスコアリングのコンテキストでは、Azure Machine Learning によって、自動スケーリングオプションを使用して仮想マシンのクラスターが作成されます。ここでは、Python スクリプトのようにジョブが並列で実行されます。
モデルはマネージドバッチエンドポイントとしてデプロイされ、一定期間にわたって大量のデータに対してバッチ推論を実行するために使用されます。バッチエンドポイントは、データへのポインターを受け取り、ジョブを非同期に実行して、複数のコンピューティングクラスターでデータを並列に処理します。
推論結果は、 Azure Data Lake Storage 内にドキュメントとして、あるいは Azure Synapse または Azure SQL Databaseに表形式で格納できます。
視覚化: 保存されたモデルの結果は、Power BI ダッシュボードなどのユーザーインターフェイス、またはカスタムビルド Web アプリケーションを介して使用できます。

Components

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

パフォーマンス

標準的な Python モデルでは、CPU で十分にワークロードを処理できることが一般に認められています。このアーキテクチャでは、CPU を使用します。ただし、ディープラーニングワークロードの場合、グラフィックスプロセッシングユニット (GPU) は一般に CPU よりもかなりのパフォーマンスを上回ります。通常、同等のパフォーマンスを得るには、かなりの規模の CPU クラスターが必要です。

VM とコアの間の並列化

多数のモデルのスコアリングプロセスをバッチモードで実行する場合は、VM 間でジョブを並列処理する必要があります。 2 つの方法が可能であり、

低コストの VM を使用して大規模なクラスターを作成する。
高パフォーマンスの VM を使用する小規模なクラスターを作成し、それぞれで複数のコアを使用できるようにする。

一般に、標準的な Python モデルのスコアリングはディープラーニングモデルのスコアリングほど負荷が高くないため、小規模のクラスターでキューに置かれた多数のモデルを効率的に処理できます。データセットのサイズが大きくなったときに、クラスターノードの数を増やすことができます。

このシナリオでは便宜上、単一の Azure Machine Learning パイプラインステップ内で 1 つのスコアリングタスクを送信します。ただし、同じパイプラインステップ内で複数のデータチャンクをスコアリングすることで、効率を上げることができます。この場合は、単一ステップの実行中に、複数のデータセットを読み取り、スコアリングスクリプトを実行するカスタムコードを記述します。

管理

ジョブの監視。 実行中のジョブの進行状況を監視することが重要です。ただし、アクティブなノードのクラスター全体を監視するのは困難な場合があります。クラスター内のノードの状態を調べるには、 Azure portal を使用して、 Machine Learning ワークスペースを管理します。ノードが非アクティブになった場合、またはジョブが失敗した場合は、エラーログが Blob Storage に保存され、 [パイプライン] セクションからアクセスすることもできます。監視を強化するには、ログを Application Insights に接続するか、クラスターとそのジョブの状態をポーリングする別のプロセスを実行します。
ログの記録。 Machine Learning では、関連付けられている Azure Storage アカウントにすべての stdout/stderr が記録されます。ログファイルを簡単に表示するには、 Azure Storage Explorer などのストレージナビゲーションツールを使用します。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

このアーキテクチャガイドで使用される最も高価なコンポーネントは、コンピューティングリソースです。コンピューティングクラスターのサイズは、キュー内のジョブに応じて、スケールアップおよびスケールダウンされます。 Python SDK を使用してコンピューティングのプロビジョニング構成を変更することにより、プログラムで自動スケーリングを有効にします。または、 Azure CLI を使用して、クラスターの自動スケーリングパラメーターを設定します。

即時処理を必要としない作業の場合は、既定の状態 (最小) が 0 個のノードのクラスターになるように、自動スケーリング式を構成します。この構成では、クラスターは 0 個のノードで開始し、キュー内でジョブが検出されたときのみスケールアップします。バッチスコアリングプロセスが 1 日に数回以下しか発生しない場合は、この設定により大幅なコスト削減を実現できます。

非常に短い間隔で発生するバッチジョブでは、自動スケーリングは適切ではない場合があります。クラスターの起動と停止に要する時間にはコストがかかるので、前のジョブの終了後ほんの数分でバッチワークロードが開始する場合は、ジョブ間もクラスターを実行したままにする方がコスト効率がよくなる可能性があります。この戦略は、スコアリングプロセスが高い頻度で (たとえば 1 時間ごとに) 実行されるようにスケジュールされるか、低い頻度で (たとえば 1 か月に 1 回) 実行されるようにスケジュールされるかによって決まります。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

Carlos Alexandre Santos | 特化型 AI クラウドソリューションシニアアーキテクト
Said Bleik | プリンシパル応用科学者マネージャー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の手順

製品ドキュメント:

Microsoft Learn モジュール：

次の方法で共有

Azure での Python モデルのバッチスコアリング

アーキテクチャ

ワークフロー

Components

考慮事項

パフォーマンス

VM とコアの間の並列化

管理

コストの最適化

共同作成者

次の手順

フィードバック

フィードバック

その他のリソース

次の方法で共有

Azure での Python モデルのバッチ スコアリング

アーキテクチャ

ワークフロー

Components

考慮事項

パフォーマンス

VM とコアの間の並列化

管理

コストの最適化

共同作成者

次の手順

関連リソース

フィードバック

フィードバック

その他のリソース

Azure での Python モデルのバッチスコアリング