次の方法で共有


データ マイニングでの機能の選択

Microsoft SQL Server 2005 Analysis Services (SSAS) でデータ マイニング モデルを作成する場合、データセットには、モデルの作成に必要な情報以上の情報がある場合がしばしばあります。ただし、モデルの構築が終了するまではどの情報が必要かを判断するのは困難です。たとえば、顧客の特性を説明する 500 列が含まれているデータセットで、そのうち 50 列のみが特定のモデルの作成に使用される場合があります。余分な列はモデルの出力には影響を与えませんが、モデルを処理するために必要な時間とモデルを保存するために必要な容量が増加します。この問題を解決するために、Microsoft アルゴリズムには機能の選択が実装されているものがあります。機能の選択では、モデルで使用される可能性の高い属性がデータセット内で自動的に選択されます。次のアルゴリズムでは、機能の選択がサポートされています。

  • Naive Bayes
  • デシジョン ツリー
  • クラスタリング
  • ニューラル ネットワーク

機能の選択は、アルゴリズムに応じて、入力属性と予測可能属性に適用されるものと、列内の状態の数に適用されるものがあります。いつ機能の選択をオンにするかは、アルゴリズム パラメータ MAXIMUM_INPUT_ATTRIBUTESMAXIMUM_OUTPUT_ATTRIBUTES、および MAXIMUM_STATES を使用して制御します。MAXIMUM_INPUT_ATTRIBUTES パラメータで指定した数より多い列がモデルにある場合、アルゴリズムでは、計算により無意味であると判断されたすべての列が無視されます。同様に、モデルに MAXIMUM_OUTPUT_ATTRIBUTES パラメータで指定された数より多い予測可能列がある場合、アルゴリズムは無意味と算出されたすべての列を無視します。モデルに MAXIMUM_STATES パラメータで指定された数より多いケースがある場合、最も一般的でない状態はグループ化され、無視されます。これらのパラメータのいずれかが 0 に設定されている場合、機能の選択はオフになり、処理時間とパフォーマンスに影響を及ぼします。

アルゴリズムが選択した入力属性と状態のみがモデル作成プロセスに含まれ、予測作成に使用できます。機能の選択によって無視された予測可能列は予想作成に使用されますが、予測はモデル内に存在する全体統計のみを基礎とします。

参照

概念

データ マイニング アルゴリズム
Microsoft クラスタリング アルゴリズム
Microsoft デシジョン ツリー アルゴリズム
Microsoft Naive Bayes アルゴリズム
Microsoft ニューラル ネットワーク アルゴリズム (SSAS)

ヘルプおよび情報

SQL Server 2005 の参考資料の入手