Select Columns Transform (列変換の選択)

この記事では、Azure Machine Learning デザイナーで Select Columns Transform (列変換の選択) コンポーネントを使用する方法について説明します。 Select Columns Transform (列変換の選択) コンポーネントの目的は、予測可能で一貫性のある一連の列がダウンストリームの機械学習操作で使用されるようにすることです。

このコンポーネントは、特定の列を必要とするスコアリングなどのタスクに役立ちます。 使用可能な列を変更すると、パイプラインが中断されたり、結果が変わったりする可能性があります。

Select Columns Transform (列変換の選択) を使用して、一連の列を作成して保存します。 次に、Apply Transformation (変換の適用) コンポーネントを使用してそれらの選択を新しいデータに適用します。

Select Columns Transform (列変換の選択) の使用方法

このシナリオでは、特徴選択を使用して、モデルのトレーニングに使用する列の動的セットを生成することを前提としています。 列の選択がスコアリング プロセスで同じになるように、Select Columns Transform (列変換の選択) コンポーネントを使用して列の選択をキャプチャし、パイプラインの他の場所にそれらを適用します。

  1. デザイナーでパイプラインに入力データセットを追加します。

  2. Filter Based Feature Selection (フィルターに基づく特徴選択) のインスタンスを追加します。

  3. コンポーネントを接続し、特徴選択コンポーネントを構成して、入力データセット内でいくつかの最適な特徴を自動的に検出します。

  4. Train Model (モデルのトレーニング) のインスタンスを追加し、Filter Based Feature Selection (フィルターに基づく特徴選択) の出力をトレーニングの入力として使用します。

    重要

    特徴量の重要度は列の値に基づくため、Train Model (モデルのトレーニング) への入力に使用できる列を事前に把握することはできません。

  5. Select Columns Transform (列変換の選択) コンポーネントのインスタンスを接続します。

    この手順により、他のデータセットに保存または適用できる変換として列の選択が生成されます。 この手順により、特徴選択で識別された列が、他のコンポーネントで再利用できるように保存されます。

  6. [Score Model](モデルのスコア付け) コンポーネントを追加します。

    入力データセットは接続しないでください。 代わりに、Apply Transformation (変換の適用) コンポーネントを追加し、特徴選択変換の出力を接続します。

    パイプライン構造は次のようになります。

    サンプル パイプライン

    重要

    Filter Based Feature Selection (フィルターに基づく特徴選択) をスコアリング データセットに適用しても、同じ結果が得られるわけではありません。 特徴選択は値に基づくため、異なる列セットが選択される可能性があります。その場合、スコアリング操作は失敗します。

  7. パイプラインを送信します。

列選択を保存してから適用するこのプロセスにより、同じデータ スキーマをトレーニングとスコアリングに使用することができます。

次のステップ

Azure Machine Learning で使用できる一連のコンポーネントを参照してください。