テーブル分析ツール for Excel を使用してデータ マイニングを実行する場合、データ マイニング アルゴリズムまたはパラメーターを構成する必要はありません。各ツールはデータを分析し、最適なパラメーターを自動的に選択します。 ただし、モデルを変更する場合や、マイニング モデルをゼロから作成する場合は、Excel 用データ マイニング クライアントにカスタマイズするためのオプションがいくつか用意されています。
[詳細設定] をクリックし、[構造にモデルを追加] をクリックして、データ マイニング モデルを手動で作成します。
データ マイニング クライアントのいずれかのモデリング ウィザードを使用し、[ パラメーター ] をクリックして Microsoft データ マイニング アルゴリズムの動作を制御します。
[ クエリ ] をクリックしてクエリ モデル ウィザードを開き、[ 詳細設定 ] をクリックして データ マイニングの詳細クエリ エディターを開きます。 このエディターでは、DMX テンプレートを使用してモデルを構築できます。
また、既に作成されているマイニング モデルの動作を変更したり、マイニング モデル ビューアーでパラメーターを設定して結果をフィルター処理したりすることもできます。
アルゴリズム パラメーターの一覧
すべての Microsoft アルゴリズムは、パラメーターを設定することでカスタマイズできます。 最適なパラメーター設定はデータの構成によって異なるため、パラメーターの変更による影響の詳細については、このトピックでは説明しません。
次の表に、パラメーターの一覧を示し、その機能について説明し、より多くの技術情報へのリンクを示します。
| パラメーター名 | で使用されます | 説明 |
|---|---|---|
| 自動周期検出 | Microsoft タイム シリーズ アルゴリズム | 周期性の検出に使用される 0 ~ 1 の数値を指定します。 この値を 1 に近い値に設定すると、多くのほぼ定期的なパターンの検出と周期性ヒントの自動生成が優先されます。 多くの周期性ヒントを処理すると、モデルのトレーニング時間が大幅に長くなり、モデルの精度が向上する可能性があります。 値が 0 に近い場合、周期性は、強い周期データに対してのみ検出されます。 既定値は 0.6 です。 |
| CLUSTER_COUNT | Microsoft クラスタリング アルゴリズム Microsoft シーケンス クラスタリング アルゴリズム |
アルゴリズムによって構築されるクラスターの概数を指定します。 クラスターの概数をデータから構築できない場合、アルゴリズムはできるだけ多くのクラスターを構築します。 CLUSTER_COUNTを 0 に設定すると、アルゴリズムはヒューリスティックを使用して、構築するクラスターの数を最適に決定します。 既定値は 10 です。 |
| CLUSTER_SEED | Microsoft クラスタリング アルゴリズム | モデル構築の初期段階でクラスターをランダムに生成するために使用されるシード番号を指定します。 既定値は 0 です。 |
| クラスタリング方法 | Microsoft クラスタリング アルゴリズム | 使用するアルゴリズムのクラスタリング方法を指定します。 スケーラブル EM (1)、非スケーラブル EM (2)、スケーラブル K-Means (3)、および非スケーラブル K-Means (4) のクラスタリング方法を使用できます。 既定値は 1 です。 |
| 複雑さペナルティ | Microsoft デシジョン ツリー アルゴリズム Microsoft タイム シリーズ アルゴリズム |
デシジョン ツリーの拡張を制御します。 値を小さくすると分割の数が増え、値が大きいほど分割の数が減ります。 既定値は、次の一覧で説明するように、特定のモデルの属性の数に基づいています。 1 から 9 の属性の場合、既定値は 0.5 です。 10 ~ 99 の属性の場合、既定値は 0.9 です。 100 個以上の属性の場合、既定値は 0.99 です。 注: 時系列モデルでは、このパラメーターは ARTxp アルゴリズムを使用して構築されたモデル、または混合モデルにのみ適用されます。 |
| 強制回帰器 | Microsoft デシジョン ツリー アルゴリズム Microsoft 線形回帰アルゴリズム |
アルゴリズムによって計算される列の重要度に関係なく、指定された列をリグレッサーとして使用するようにアルゴリズムに強制します。 注: このパラメーターは、連続属性を予測するデシジョン ツリーにのみ使用されます。 定義上、線形回帰モデルは、連続属性を予測するデシジョン ツリーの特殊なケースです。 ただし、デシジョン ツリー モデルには、線形回帰式を表すノードを含めることができます。 |
| 予測方法 | Microsoft タイム シリーズ アルゴリズム | ARTxp アルゴリズム、ARIMA アルゴリズム、またはその両方の組み合わせを使用して予測を行う必要があるかどうかを示します。 既定値は MIXED です。 |
| HIDDEN_NODE_RATIO | Microsoft ニューラル ネットワーク アルゴリズム | 入力ニューロンと出力ニューロンに対する非表示ニューロンの比率を指定します。 次の式は、非表示層内のニューロンの初期数を決定します。 HIDDEN_NODE_RATIO * SQRT(入力ニューロンの合計数 * 出力ニューロンの合計数) 既定値は 4.0 です。 |
| 歴史的なモデルの数 | Microsoft タイム シリーズ アルゴリズム | 構築される履歴モデルの数を指定します。 既定値は 1 です。 |
| 歴史的モデルのギャップ | Microsoft タイム シリーズ アルゴリズム | 2 つの連続する履歴モデル間のタイム ラグを指定します。 たとえば、この値を g に設定すると、g、2*g、3*g などの間隔でタイム スライスによって切り捨てられたデータに対して履歴モデルが構築されます。 既定値は 10 です。 |
| ホールドアウト割合 | Microsoft ロジスティック回帰アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム |
マイニング モデルのトレーニング中に停止条件の一部として使用される、ホールドアウト エラーの計算に使用されるトレーニング データ内のケースの割合を指定します。 既定値は 30 です。 注: このパラメーターは、マイニング構造に適用される保留率の値とは異なります。 |
| HOLDOUT_SEED | Microsoft ロジスティック回帰アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム |
アルゴリズムがホールドアウト データをランダムに決定するときに擬似ランダム ジェネレーターのシード処理に使用される数値を指定します。 このパラメーターが 0 に設定されている場合、アルゴリズムはマイニング モデルの名前に基づいてシードを生成し、再処理時にモデルのコンテンツが同じままであることを保証します。 既定値は 0 です。 注: このパラメーターは、マイニング構造に適用されるホールドアウト シード値とは異なります。 |
| 不安定性感度 | Microsoft タイム シリーズ アルゴリズム | 予測分散が特定のしきい値を超えるポイントを制御し、ARTxp アルゴリズムによって予測が抑制されます。 既定値は 1 です。 注: このパラメーターは、ARTxp アルゴリズムを使用する混合モデルまたはモデルにのみ適用されます。 |
| 最大入力属性 | Microsoft クラスタリング アルゴリズム Microsoft デシジョン ツリー アルゴリズム Microsoft 線形回帰アルゴリズム Microsoft Naïve Bayes アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム Microsoft ロジスティック回帰アルゴリズム |
アルゴリズムが機能選択を呼び出す前に処理できる入力属性の数を定義します。 機能の選択をオフにするには、この値を 0 に設定します。 既定値は 255 です。 |
| アイテムセット数の最大値 | Microsoft アソシエーション アルゴリズム | 生成するアイテムセットの最大数を指定します。 数値が指定されていない場合、アルゴリズムは使用可能なすべてのアイテムセットを生成します。 既定値は 200000 です。 |
| MAXIMUM_ITEMSET_SIZE (最大項目集合サイズ) | Microsoft アソシエーション アルゴリズム | アイテムセットで許可される項目の最大数を指定します。 この値を 0 に設定すると、アイテムセットのサイズに制限がないことを指定します。 デフォルトは3です。 |
| 最大出力属性 | Microsoft デシジョン ツリー アルゴリズム Microsoft 線形回帰アルゴリズム Microsoft ロジスティック回帰アルゴリズム Microsoft Naïve Bayes アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム |
アルゴリズムが機能選択を呼び出す前に処理できる出力属性の数を定義します。 機能の選択をオフにするには、この値を 0 に設定します。 既定値は 255 です。 |
| 最大シーケンス状態 | Microsoft シーケンス クラスタリング アルゴリズム | シーケンスに含めることができる状態の最大数を指定します。 この値を 100 より大きい値に設定すると、アルゴリズムによって、意味のある情報を提供しないモデルが作成される可能性があります。 既定値は 64 です。 |
| 最大シリーズ値 | Microsoft タイム シリーズ アルゴリズム | 予測に使用する最大値を指定します。 このパラメーターは、予測を予想される範囲に制限するために、MINIMUM_SERIES_VALUEと共に使用されます。 たとえば、任意の日の予測販売数量が在庫内の製品数を超えないように指定できます。 |
| 最大状態数 | Microsoft クラスタリング アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム Microsoft シーケンス クラスタリング アルゴリズム |
アルゴリズムがサポートする属性状態の最大数を指定します。 属性に含まれる状態の数が状態の最大数を超える場合、アルゴリズムは属性の最も一般的な状態を使用し、残りの状態を無視します。 既定値は、100 です。 |
| 最大限のサポート | Microsoft アソシエーション アルゴリズム | アイテムセットがサポートできるケースの最大数を指定します。 この値が 1 未満の場合、値はケース全体に対する割合を表します。 この値が 1 より大きい場合、この値はアイテムセットを含むことができるケースの絶対数を表します。 既定値は 1 です。 |
| 最低重要度 | Microsoft アソシエーション アルゴリズム | 関連付けルールの重要度のしきい値を指定します。 重要度がこの値より小さいルールは除外されます。 |
| 最小アイテムセットサイズ | Microsoft アソシエーション アルゴリズム | アイテムセットで許可される項目の最小数を指定します。 既定値は 1 です。 |
| 最小依存確率 | Microsoft Naïve Bayes アルゴリズム | 入力属性と出力属性の間の依存関係の最小確率を指定します。 この値は、アルゴリズムによって生成されるコンテンツのサイズを制限するために使用されます。 このプロパティは 0 から 1 に設定できます。 値を大きくすると、モデルのコンテンツ内の属性の数が減ります。 既定値は 0.5 です。 |
| 最小確率 | Microsoft アソシエーション アルゴリズム | ルールが true である最小確率を指定します。 たとえば、この値を 0.5 に設定すると、確率が 50% 未満のルールは生成されません。 既定値は 0.4 です。 |
| 最小シリーズ値 | Microsoft タイム シリーズ アルゴリズム | 時系列予測の低い制約を指定します。 予測値は、この制約よりも小さになることはありません。 |
| 最小限のサポート | Microsoft アソシエーション アルゴリズム | アルゴリズムがルールを生成する前にアイテムセットを含める必要があるケースの最小数を指定します。 この値を 1 未満に設定すると、ケースの最小数がケース全体に対する割合として指定されます。 この値を 1 より大きい整数に設定すると、アイテムセットを含める必要があるケースの絶対数としてケースの最小数が指定されます。 メモリが制限されている場合、アルゴリズムによってこのパラメーターの値が増加する可能性があります。 既定値は 0.03 です。 |
| 最小限のサポート | Microsoft クラスタリング アルゴリズム | 各クラスター内のケースの最小数を指定します。 既定値は 1 です。 |
| 最小限のサポート | Microsoft デシジョン ツリー アルゴリズム | デシジョン ツリーで分割を生成するために必要なリーフ ケースの最小数を決定します。 既定値は 10 です。 |
| 最小限のサポート | Microsoft シーケンス クラスタリング アルゴリズム | 各クラスター内のケースの最小数を指定します。 既定値は 10 です。 |
| 最小限のサポート | Microsoft タイム シリーズ アルゴリズム | 各タイム シリーズ ツリーで分割を生成するために必要なタイム スライスの最小数を指定します。 既定値は 10 です。 |
| MISSING_VALUE_SUBSTITUTION | Microsoft タイム シリーズ アルゴリズム | 履歴データのギャップを埋めるために使用するメソッドを指定します。 既定では、データ内の不規則なギャップや不規則なエッジは許可されません。 次の方法を使用して、不規則なギャップやエッジを埋めることができます。前の値を使用するか、平均値を使用するか、特定の数値定数を使用します。 |
| モデリングの基数 | Microsoft クラスタリング アルゴリズム | クラスタリング プロセス中に構築されるサンプル モデルの数を指定します。 既定値は 10 です。 |
| PERIODICITY_HINT | Microsoft タイム シリーズ アルゴリズム | データの周期性に関するヒントをアルゴリズムに提供します。 たとえば、売上が年によって異なり、系列の測定単位が月である場合、周期性は 12 です。 このパラメーターは {n [, n]} の形式を受け取ります。n は任意の正の数です。 角かっこ [] 内の n は省略可能であり、必要に応じて頻繁に繰り返すことができます。 既定値は {1}です。 |
| 予測スムージング | Microsoft タイム シリーズ アルゴリズム | ARTXP と ARIMA 時系列アルゴリズムのブレンドを制御します。 指定された値は、FORECAST_METHOD パラメーターが MIXED に設定されている場合にのみ有効です。 値は 0 から 1 の間である必要があります。 値が 0 の場合、モデルでは ARTXP のみが使用されます。 値が 1 の場合、モデルでは ARIMA のみが使用されます。 0 に近い値は、ARTXP により重み付けされます。 1 に近い値は ARIMA により重み付けされます。 |
| サンプルサイズ | Microsoft クラスタリング アルゴリズム | CLUSTERING_METHOD パラメーターがスケーラブルなクラスタリングメソッドのいずれかに設定されている場合に、各パスでアルゴリズムが使用するケースの数を指定します。 SAMPLE_SIZE パラメーターを 0 に設定すると、データセット全体が 1 つのパスにクラスター化されます。 これにより、メモリとパフォーマンスの問題が発生する可能性があります。 既定値は 50000 です。 |
| サンプルサイズ | Microsoft ロジスティック回帰アルゴリズム Microsoft ニューラル ネットワーク アルゴリズム |
モデルのトレーニングに使用するケースの数を指定します。 アルゴリズム プロバイダーは、この数またはHOLDOUT_PERCENTAGE パラメーターで指定された保留率に含まれていないケースの合計数のうち、どちらか小さい方の値を使用します。 つまり、HOLDOUT_PERCENTAGEが 30 に設定されている場合、アルゴリズムでは、このパラメーターの値、またはケースの合計数の 70% に等しい値のいずれか小さい方が使用されます。 既定値は 10000 です。 |
| SCORE_METHOD | Microsoft デシジョン ツリー アルゴリズム | 分割スコアの計算に使用する方法を決定します。 利用可能なオプションは次の通りです。(1) エントロピー、(2) K2 プライアを用いたベイジアン、または (3) ベイジアン・ディリクレ等価(BDE)プライア。 デフォルトは3です。 |
| 分割法 | Microsoft デシジョン ツリー アルゴリズム | ノードの分割に使用するメソッドを決定します。 バイナリ (1)、Complete (2)、または Both (3) のオプションを使用できます。 デフォルトは3です。 |
| STOPPING_TOLERANCE | Microsoft クラスタリング アルゴリズムテクニカル リファレンス | 収束に達し、アルゴリズムがモデルの構築を完了するタイミングを決定するために使用される値を指定します。 クラスターの確率の全体的な変化が、STOPPING_TOLERANCE パラメーターの比率をモデルのサイズで割った割合よりも小さい場合、収束に達します。 既定値は 10 です。 |
コメント
アルゴリズムの詳細については、SQL Server オンライン ブックを参照してください。