Share via


特徴選択モジュール

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、機能の選択にMachine Learning Studio (クラシック) のモジュールについて説明します。

注意

適用対象: Machine Learning Studio (クラシック) のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

特徴の選択は、機械学習の重要なツールです。 Machine Learning Studio (クラシック) には、機能の選択を実行するための複数の方法があります。 使用しているデータの種類と適用される統計的手法の要件に基づいて、特徴選択方法を選択します。

この記事には、次の内容が含まれます。

Machine Learning Studio (クラシック) の各機能選択モジュールでは、入力としてデータセットが使用されます。 次に、モジュールは、入力として提供されるデータ列に、よく知られている統計メソッドを適用します。 出力は、最適な情報値を持つ列を識別するのに役立つ一連のメトリックです。

機能の選択について

機械学習と統計 では、特徴 の選択は、分析モデルの構築に使用する関連する便利な特徴のサブセットを選択するプロセスです。 特徴の選択は、データのフィールドを最も重要な入力に絞り込むのに役立ちます。 データのフィールドを絞り込むと、ノイズを減らし、トレーニングのパフォーマンスを向上させることができます。

多くの場合、特徴は、特徴エンジニアリングのプロセスを通じて生データから作成されます。 たとえば、情報が日単位、月単位、または問題に関連するカテゴリ (休日や勤務日など) に変換されるまで、タイム スタンプ自体はモデリングに役立たない場合があります。

機械学習の新しいユーザーは、使用可能なすべてのデータを含めたがっている可能性があります。 さらに多くのデータを使用することで、アルゴリズムが興味深いものを見つけると予想される場合があります。 ただし、特徴の選択は通常、モデルを改善し、一般的な問題を防ぐ可能性があります。

  • データには冗長または無関係な特徴が含まれており、現在選択されている機能以上の情報は提供されません。
  • データには、どのコンテキストでも有用な情報を提供する無関係な特徴が含まれている。 無関係なフィールドを含めると、データのトレーニングに必要な時間が増えるだけでなく、結果が低下する可能性があります。
  • 一部のアルゴリズムでは、トレーニング データに重複する情報を含め、多線性と呼ばれる 現象が発生する可能性があります。 多線性では、高い相関関係を持つ 2 つの変数が存在すると、他の変数の計算の精度がはるかに低くなる可能性があります。

ヒント

Machine Learning Studio (クラシック) の一部の機械学習アルゴリズムでは、トレーニング プロセスの一部として特徴選択または次元の削減も使用されます。 これらの学習器を使用すると、特徴選択プロセスをスキップし、アルゴリズムに最適な入力を決定させることができます。

実験で特徴選択を使用する

特徴の選択は、通常、データを探索し、新しいモデルを開発するときに実行されます。 機能の選択を使用する場合は、次のヒントに注意してください。

  • テスト時に、使用する列の決定を通知するスコアを生成する特徴選択を実験に追加します。
  • モデルを運用化するときに、実験から特徴の選択を削除します。
  • 機能の選択を定期的に実行して、データと最適な機能が変わっていないか確認します。

特徴の選択は、既存のデータから新しい機能を作成する機能エンジニアリングとは異なります。

リソース

  • データ サイエンス プロセスの一部として特徴をエンジニアリングしたり、最適な特徴を選択したりできるさまざまな方法については、「データ サイエンスにおける特徴エンジニアリング」を 参照してください
  • データ サイエンス プロセスでの特徴選択のチュートリアルについては、「データから特徴をフィルター処理する - 特徴の選択」 を参照してください

Machine Learning Studio (クラシック) での機能の選択方法

次の機能選択モジュールは、Machine Learning Studio (クラシック) で提供されています。

フィルターに基づく特徴選択

フィルター ベースの特徴選択 モジュールを使用 する場合は、既知の特徴選択方法から選択できます。 モジュールは、特徴選択統計とフィルター選択されたデータセットの両方を出力します。

選択するフィルター選択方法は、入力データの種類により部分的に異なります。

メソッド サポートされている特徴入力 サポートされているラベル
ピアソンの相関関係 数値列と論理列のみ 1 つの数値列または論理列
相互情報量スコアリング すべてのデータ型 任意のデータ型の 1 つの列
ケンドールの相関係数 数値列と論理列のみ 1 つの数値列または論理列

列には、ランク付けできる値が必要です
スピアマンの相関係数 数値列と論理列のみ 1 つの数値列または論理列
カイ二乗統計量 すべてのデータ型 任意のデータ型の 1 つの列
フィッシャー スコア 数値列と論理列のみ 1 つの数値列または論理列

文字列列にはスコア 0 が割り当てられます
カウント ベースの特徴選択 すべてのデータ型 ラベル列は必要ありません

Fisher 線形判別分析

線形判別分析は、単一のカテゴリターゲットと組み合わせて数値変数を分類するために使用できる教師あり学習手法です。 この方法は、グループを最適に分離する特徴またはパラメーターの組み合わせを特定するため、特徴選択に役立ちます。

Linear Discriminant Analysis モジュールを使用して、レビュー用のスコアのセットを生成するか、モジュールによって生成された置換データセットをトレーニングに使用できます。

順列の特徴量の重要度

Permutation Feature Importance モジュールを使用して、データセットに対する特徴のセットの影響をシミュレートします。 モジュールは、特徴値のランダムシャッフルに基づいて、モデルのパフォーマンス スコアを計算します。

モジュールから返されるスコアは、値が変化した場合のトレーニング済みモデルの精度の潜在的な変化を表します。 スコアを使用して、モデルに対する個々の変数の影響を判断できます。

特徴選択を組み込む機械学習アルゴリズム

Machine Learning Studio (クラシック) の一部の機械学習アルゴリズムでは、トレーニング中に機能の選択が最適化されます。 また、機能の選択に役立つパラメーターを提供することもできます。 特徴を選択するために独自のヒューリスティックを持つメソッドを使用している場合は、多くの場合、特徴を事前に選択するのではなく、そのヒューリスティックに依存する方が適切です。

これらのアルゴリズムと機能の選択方法は、内部的に使用されます。

  • 分類と回帰のためのブースト された意思決定ツリー モデル

    これらのモジュールでは、機能の概要が内部的に作成されます。 重みが0の特徴は、どのツリー分割でも使用されません。 最適なトレーニング済みのモデルを視覚化すると、各ツリーを見ることができます。 機能がどのツリーでも使用されていない場合、その機能は削除の候補となる可能性があります。 選択を最適化するには、パラメータースイープを使用することをお勧めします。

  • ロジスティック回帰モデルと線形モデル

    多クラスおよびバイナリロジスティック回帰のモジュールは、L1 と L2 正則化をサポートしています。 正則化はトレーニング中に制約を追加して、学習したモデルの側面を手動で指定する方法です。 正則化は通常、オーバーフィットを避けるために使用されます。 Machine Learning Studio (クラシック) は、線形分類アルゴリズムでの重みベクトルの L1 または L2 の正則化をサポートしています。

    • L1 正則化は、モデルを可能な限りスパースにすることが目標である場合に便利です。
    • L2 正則化は、重みベクトル内の任意の単一座標の絶対値が大きくなり過ぎるのを防止します。 これは、全体的な重みが小さいモデルを使用することが目的である場合に便利です。
    • L1-正規化ロジスティック回帰は、特徴に0の重みを割り当てることにより積極的になります。 削除できる機能を識別する場合に便利です。

テクニカル ノート

数値列と論理列をサポートするすべての機能選択モジュールと分析メソッドでは、日付/時刻列と timespan 列もサポートされます。 これらの列は、各値がタイマー刻みの数と等しい単純な数値列として扱われます。

次のモジュールは 特徴選択 カテゴリに含まれていませんが、関連するタスクに使用できます。 モジュールは、データの次元を小さくしたり、相関関係を見つけたりするのに役立ちます。

多数の列を含むデータセットがある場合は、 プリンシパルコンポーネント分析 モジュールを使用して、元のデータに関する最も多くの情報が含まれている列を検出します。

このモジュールは、[ データ変換 ] カテゴリの [ スケールと縮小] にあります。

カウントベースの特性付けは、大きなデータセットを使用して便利な機能を決定するために使用できる新しい手法です。 これらのモジュールを使用してデータセットを分析し、最適な機能を見つけたり、新しいデータで使用する一連の機能を保存したり、既存の機能セットを更新したりできます。

このモジュールを使用して、入力データセット内の変数の可能な各ペアについて、一連のピアソン相関係数を計算します。 ピアソンの相関係数 (ピアソンの R テストとも呼ばれます) は、2つの変数間の線形関係を測定する統計値です。

このモジュールは、 統計関数 カテゴリに含まれています。

モジュールの一覧

[ 機能の選択 ] カテゴリには、次のモジュールが含まれています。

こちらもご覧ください