Azure Machine Learning 用語集

Azure Machine Learning 用語集は、Machine Learning プラットフォームの用語をまとめた簡単な辞書です。 一般的な Azure の用語については、以下も参照してください。

コンポーネント

Machine Learning コンポーネントは、機械学習パイプラインで 1 つのステップを実行する自己完結型のコードです。 コンポーネントは、高度な機械学習パイプラインの構成要素です。 コンポーネントは、データ処理、モデル トレーニング、モデル スコアリングなどのタスクを実行できます。 コンポーネントは関数に似ています。 これは名前とパラメータを持ち、入力を必要とし、出力を返します。

Compute

コンピューティングとは、ジョブを実行したり、エンドポイントをホストしたりする、指定されたコンピューティング リソースのことです。 Machine Learning は、次の種類のコンピューティングをサポートしています。

  • コンピューティング クラスター: クラウド上に CPU または GPU コンピューティング ノードのクラスターを簡単に作成できる、マネージド コンピューティング インフラストラクチャ。

    Note

    コンピューティング クラスターを作成する代わりに、サーバーレス コンピューティングを使って、コンピューティングのライフサイクル管理を Azure Machine Learning にオフロードします。

  • コンピューティング インスタンス: 完全に構成および管理される、クラウド上の開発環境。 このインスタンスは、トレーニングまたは推論コンピューティングとして、開発やテストに使用できます。 これは、クラウド上の仮想マシンのようなものです。

  • Kubernetes クラスター: トレーニング済みの機械学習モデルを Azure Kubernetes Service (AKS) にデプロイするために使用されます。 Machine Learning ワークスペースから AKS クラスターを作成するか、既存の AKS クラスターをアタッチすることができます。

  • アタッチ型コンピューティング: 独自のコンピューティング リソースをワークスペースにアタッチし、トレーニングと推論に使用できます。

データ

Machine Learning を使用すると、さまざまな種類のデータを操作できます。

  • URI (ローカルまたはクラウド ストレージ内の場所):
    • uri_folder
    • uri_file
  • テーブル (表形式データの抽象化):
    • mltable
  • プリミティブ:
    • string
    • boolean
    • number

ほとんどのシナリオでは、ストレージをマウントするか、ノードにダウンロードすることで、ジョブ内のコンピューティング ノードのファイルシステムに簡単にマップできるストレージ内の場所を特定するために、URI (uri_folder および uri_file) を使用します。

mltable パラメータは、自動機械学習 (AutoML) ジョブ、並列ジョブ、およびいくつかの高度なシナリオで使用される表形式データの抽象化です。 Machine Learning を使い始めたが、AutoML を使っていない場合は、URI から始めることを強くお勧めします。

データストア

Machine Learning データストアでは、Azure のデータ ストレージへの接続情報が安全に保持されるため、ご自身のスクリプトでそのコードを書く必要はありません。 データストアを登録および作成すると、ストレージ アカウントに簡単に接続し、基になるストレージ サービスのデータにアクセスできます。 Azure Machine Learning CLI v2 と SDK v2 では、次の種類のクラウドベース ストレージ サービスがサポートされています。

  • Azure BLOB Storage コンテナー
  • Azure Files 共有
  • Azure Data Lake Storage
  • Azure Data Lake Storage Gen2

Environment

Machine Learning 環境は、機械学習タスクが行われる環境をカプセル化したものです。 そこでは、トレーニングとスコアリングのスクリプトに関連する、ソフトウェア パッケージ、環境変数、およびソフトウェア設定を指定します。 環境は、Machine Learning ワークスペース内で管理およびバージョン管理されるエンティティです。 環境を使用することで、さまざまなコンピューティング先で再現、監査、移植できる機械学習ワークフローを実現できます。

環境の種類

Machine Learning では、キュレーション環境とカスタム環境の 2 種類がサポートされています。

キュレートされた環境は Machine Learning から提供され、既定でお使いのワークスペースで利用できます。 これらは、そのまま使用することを目的としています。 Python のパッケージと設定の集まりが含まれており、さまざまな機械学習フレームワークを開始するのに役立ちます。 これらの事前に作成された環境を利用すると、デプロイ時間の短縮も可能です。 利用可能な環境の完全な一覧については、CLI と SDK (v2) を使用した Azure Machine Learning 環境に関する記事を参照してください。

カスタム環境では、環境のセットアップはお客様の責任となります。 コンピューティングでトレーニングまたはスコアリング スクリプトに必要なパッケージとその他の依存関係を必ずインストールしてください。 Machine Learning では以下のものを使用して独自の環境を作成できます

  • Docker イメージ。
  • さらにカスタマイズするための conda YAML を含んだ基本 Docker イメージ。
  • Docker ビルドのコンテキスト。

モデル

Machine Learning モデルは、機械学習モデルと対応するメタデータを表すバイナリ ファイルで構成されます。 モデルは、ローカルまたはリモートのファイルやディレクトリから作成できます。 リモートの場所としては、httpswasbs、およびazureml がサポートされています。 作成されたモデルは、指定された名前とバージョンでワークスペース内で追跡されます。 Machine Learning では、モデルのストレージ形式として次の 3 種類がサポートされています。

  • custom_model
  • mlflow_model
  • triton_model

ワークスペース

ワークスペースは、Machine Learning の最上位のリソースです。 Machine Learning を使用するときに作成する、すべての成果物を操作するための一元的な場所が提供されます。 ワークスペースには、スクリプトのログ、メトリック、出力、スナップショットなど、すべてのジョブの履歴が保持されます。 ワークスペースには、データストアやコンピューティングなどのリソースへの参照が格納されます。 また、モデル、環境、コンポーネント、データ アセットなど、すべてのアセットも保持されます。

次のステップ

Azure Machine Learning とは