Azure Machine Learning 用語集

[アーティクル]
11/16/2023

Azure Machine Learning 用語集は、Machine Learning プラットフォームの用語をまとめた簡単な辞書です。一般的な Azure の用語については、以下も参照してください。

Microsoft Azure 用語集:Azure プラットフォームにおけるクラウド用語の辞書
クラウドコンピューティング用語: 業界における一般的なクラウド用語についての解説
Azure の基本的な概念: Azure 向けの Microsoft Cloud 導入フレームワーク。

コンポーネント

Machine Learning コンポーネントは、機械学習パイプラインで 1 つのステップを実行する自己完結型のコードです。コンポーネントは、高度な機械学習パイプラインの構成要素です。コンポーネントは、データ処理、モデルトレーニング、モデルスコアリングなどのタスクを実行できます。コンポーネントは関数に似ています。これは名前とパラメータを持ち、入力を必要とし、出力を返します。

Compute

コンピューティングとは、ジョブを実行したり、エンドポイントをホストしたりする、指定されたコンピューティングリソースのことです。 Machine Learning は、次の種類のコンピューティングをサポートしています。

コンピューティングクラスター: クラウド上に CPU または GPU コンピューティングノードのクラスターを簡単に作成できる、マネージドコンピューティングインフラストラクチャ。

Note

コンピューティングクラスターを作成する代わりに、サーバーレスコンピューティングを使って、コンピューティングのライフサイクル管理を Azure Machine Learning にオフロードします。
コンピューティングインスタンス: 完全に構成および管理される、クラウド上の開発環境。このインスタンスは、トレーニングまたは推論コンピューティングとして、開発やテストに使用できます。これは、クラウド上の仮想マシンのようなものです。
Kubernetes クラスター: トレーニング済みの機械学習モデルを Azure Kubernetes Service (AKS) にデプロイするために使用されます。 Machine Learning ワークスペースから AKS クラスターを作成するか、既存の AKS クラスターをアタッチすることができます。
アタッチ型コンピューティング: 独自のコンピューティングリソースをワークスペースにアタッチし、トレーニングと推論に使用できます。

データ

Machine Learning を使用すると、さまざまな種類のデータを操作できます。

URI (ローカルまたはクラウドストレージ内の場所):
- uri_folder
- uri_file
テーブル (表形式データの抽象化):
- mltable
プリミティブ:
- string
- boolean
- number

ほとんどのシナリオでは、ストレージをマウントするか、ノードにダウンロードすることで、ジョブ内のコンピューティングノードのファイルシステムに簡単にマップできるストレージ内の場所を特定するために、URI (uri_folder および uri_file) を使用します。

mltable パラメータは、自動機械学習 (AutoML) ジョブ、並列ジョブ、およびいくつかの高度なシナリオで使用される表形式データの抽象化です。 Machine Learning を使い始めたが、AutoML を使っていない場合は、URI から始めることを強くお勧めします。

データストア

Machine Learning データストアでは、Azure のデータストレージへの接続情報が安全に保持されるため、ご自身のスクリプトでそのコードを書く必要はありません。データストアを登録および作成すると、ストレージアカウントに簡単に接続し、基になるストレージサービスのデータにアクセスできます。 Azure Machine Learning CLI v2 と SDK v2 では、次の種類のクラウドベースストレージサービスがサポートされています。

Azure BLOB Storage コンテナー
Azure Files 共有
Azure Data Lake Storage
Azure Data Lake Storage Gen2

Environment

Machine Learning 環境は、機械学習タスクが行われる環境をカプセル化したものです。そこでは、トレーニングとスコアリングのスクリプトに関連する、ソフトウェアパッケージ、環境変数、およびソフトウェア設定を指定します。環境は、Machine Learning ワークスペース内で管理およびバージョン管理されるエンティティです。環境を使用することで、さまざまなコンピューティング先で再現、監査、移植できる機械学習ワークフローを実現できます。

環境の種類

Machine Learning では、キュレーション環境とカスタム環境の 2 種類がサポートされています。

キュレートされた環境は Machine Learning から提供され、既定でお使いのワークスペースで利用できます。これらは、そのまま使用することを目的としています。 Python のパッケージと設定の集まりが含まれており、さまざまな機械学習フレームワークを開始するのに役立ちます。これらの事前に作成された環境を利用すると、デプロイ時間の短縮も可能です。利用可能な環境の完全な一覧については、CLI と SDK (v2) を使用した Azure Machine Learning 環境に関する記事を参照してください。

カスタム環境では、環境のセットアップはお客様の責任となります。コンピューティングでトレーニングまたはスコアリングスクリプトに必要なパッケージとその他の依存関係を必ずインストールしてください。 Machine Learning では以下のものを使用して独自の環境を作成できます

Docker イメージ。
さらにカスタマイズするための conda YAML を含んだ基本 Docker イメージ。
Docker ビルドのコンテキスト。

モデル

Machine Learning モデルは、機械学習モデルと対応するメタデータを表すバイナリファイルで構成されます。モデルは、ローカルまたはリモートのファイルやディレクトリから作成できます。リモートの場所としては、https、wasbs、およびazureml がサポートされています。作成されたモデルは、指定された名前とバージョンでワークスペース内で追跡されます。 Machine Learning では、モデルのストレージ形式として次の 3 種類がサポートされています。

custom_model
mlflow_model
triton_model

ワークスペース

ワークスペースは、Machine Learning の最上位のリソースです。 Machine Learning を使用するときに作成する、すべての成果物を操作するための一元的な場所が提供されます。ワークスペースには、スクリプトのログ、メトリック、出力、スナップショットなど、すべてのジョブの履歴が保持されます。ワークスペースには、データストアやコンピューティングなどのリソースへの参照が格納されます。また、モデル、環境、コンポーネント、データアセットなど、すべてのアセットも保持されます。

次のステップ

Azure Machine Learning とは