Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス

[アーティクル]
06/03/2015

Microsoft デシジョンツリーアルゴリズムは、さまざまなツリー作成手法が組み込まれた複合アルゴリズムであり、回帰、分類、アソシエーションなど、複数の分析タスクをサポートしています。 Microsoft デシジョンツリーアルゴリズムは、不連続属性と連続属性の両方のモデリングをサポートしています。

このトピックでは、アルゴリズムの実装について説明し、さまざまなタスクに合わせてアルゴリズムの動作をカスタマイズする方法を示します。また、デシジョンツリーモデルに対するクエリに関する追加情報へのリンクも示します。

デシジョンツリーアルゴリズムの実装

Microsoft デシジョンツリーアルゴリズムは、モデルの近似的事後分布を取得して、因果的相互作用のモデルの学習にベイジアンアプローチを適用します。このアプローチの詳細な説明については、Microsoft Research サイトで Meek および Heckerman による論文を参照してください。

学習に必要な事前分布情報の価値を評価する手法は、尤度等価の想定に基づいています。この想定では、条件的に独立した同じアサーションのネットワーク構造は、データでは識別できないものと見なします。各ケースには、ベイジアン事前分布ネットワークと、そのネットワークの信頼メジャーが、それぞれ 1 つずつあるものと見なされます。

アルゴリズムでは、これらの事前分布ネットワークを使用して、現在のトレーニングデータからネットワーク構造の相対的な事後確率を計算し、事後確率が最も高いネットワーク構造を特定します。

Microsoft デシジョンツリーアルゴリズムでは、さまざまな方法を使用して最適なツリーを計算します。使用される方法はタスクによって異なり、線形回帰、分類、またはアソシエーション分析があります。個々のモデルには、各種の予測可能な属性に応じて複数のツリーが含まれる可能性があります。さらに、データ内の属性と値の数に応じて、各ツリーに複数の分岐が含まれる可能性があります。特定のモデル内に作成されるツリーの形状と深さは、スコアリング方法と、使用された他のパラメーターによって決まります。パラメーターの変更も、ノードの分割場所に影響する可能性があります。

ツリーの作成

Microsoft デシジョンツリーアルゴリズムは、使用可能な入力値のセットを作成すると feature selection を実行して最も多くの情報を提供する属性と値を特定し、頻度の低い値を考慮対象からはずします。また、このアルゴリズムは、パフォーマンスを最適化するため、値をビンにグループ化し、まとめて処理できる値のグループを作成します。

ツリーは、入力と対象の結果との間の相関関係を調べることによって作成されます。すべての属性が関連付けられた後、結果を最も明確に区分する 1 つの属性がアルゴリズムによって識別されます。この最良の区分点は、情報利得を計算する式を使用して測定されます。情報利得のスコアが最も高い属性によってケースがサブセットに分割され、次にそのサブセットが同じプロセスで再帰的に分析され、ツリーを分割できなくなるまで繰り返されます。

情報利得の評価に使用される正確な式は、アルゴリズムの作成時に設定したパラメーター、予測可能列のデータ型、および入力のデータ型によって異なります。

不連続および連続の入力

予測可能属性および入力が不連続の場合、入力あたりの結果をカウントするには、マトリックスを作成し、マトリックスの各セルのスコアを生成します。

ただし、予測可能属性が不連続で入力が連続の場合、連続列の入力が自動的に分離されます。既定の動作を受け入れると、最適なビン数を Analysis Services で検出できます。また、DiscretizationMethod プロパティと DiscretizationBucketCount プロパティを設定して、連続する入力の分離方法を制御することもできます。詳細については、「マイニングモデルでの列の分離の変更」を参照してください。

連続属性の場合、アルゴリズムでは線型回帰を使用して、デシジョンツリーの分割ポイントが判断されます。

予測可能属性が連続する数値データ型の場合、結果数をできるだけ減らしてモデルの作成を高速化するために、機能の選択が出力にも適用されます。 MAXIMUM_OUTPUT_ATTRIBUTES パラメーターを設定することにより、機能の選択のしきい値を変更して、使用可能な値の数を増減できます。

Microsoft デシジョンツリーアルゴリズムが、不連続の予測可能列をどのように処理するかについては、「ベイジアンネットワークの学習 : 知識と統計データの組み合わせ」を参照してください。 Microsoft デシジョンツリーアルゴリズムが、連続する予測可能列をどのように処理するかについては、「時系列分析の自動回帰ツリーモデル」の付録を参照してください。

スコアリング方法と機能の選択

Microsoft デシジョンツリーアルゴリズムには、情報利得のスコアを計算する式が 3 つ用意されています。Shannon のエントロピー、K2 事前分布を指定したベイジアンネットワーク、および均一なディリクレ事前分布を指定したベイジアンネットワークです。データマイニングフィールドには、3 つの方法すべてが準備されています。最適な結果を得るには、複数のパラメーターとスコアリング方法を試してみることをお勧めします。これらのスコアリング方法の詳細については、「機能の選択」を参照してください。

すべての Analysis Services データマイニングアルゴリズムでは、分析能力の向上と処理負荷の削減のため、機能の選択が自動的に使用されます。機能の選択に使用される方法は、モデルの作成に使用したアルゴリズムによって異なります。デシジョンツリーモデルに対する機能の選択を制御するアルゴリズムパラメーターは、MAXIMUM_INPUT_ATTRIBUTES と MAXIMUM_OUTPUT です。

[アルゴリズム]	分析の方法	コメント
デシジョンツリー	興味深さのスコア Shannon のエントロピー K2 事前分布を指定したベイズ定理均一な事前分布を指定したベイズディリクレ等式 (既定値)	非バイナリの連続する値を含む列がある場合は、一貫性を保つため、すべての列に対して興味深さのスコアが使用されます。それ以外の場合は、既定の方法か、指定した方法が使用されます。
線形回帰	興味深さのスコア	線形回帰でサポートされるのは連続列だけであるため、興味深さのスコアのみが使用されます。

デシジョンツリー

興味深さのスコア

Shannon のエントロピー

K2 事前分布を指定したベイズ定理

均一な事前分布を指定したベイズディリクレ等式 (既定値)

非バイナリの連続する値を含む列がある場合は、一貫性を保つため、すべての列に対して興味深さのスコアが使用されます。それ以外の場合は、既定の方法か、指定した方法が使用されます。

線形回帰

興味深さのスコア

線形回帰でサポートされるのは連続列だけであるため、興味深さのスコアのみが使用されます。

スケーラビリティとパフォーマンス

分類は、重要なデータマイニング戦略です。一般に、ケースの分類に必要な情報量は、入力レコードの数に正比例して増加します。このため、分類可能なデータのサイズが制限されます。 Microsoft デシジョンツリーアルゴリズムでは次の方法を使用して、これらの問題を解決し、パフォーマンスを向上させ、メモリの制限を回避します。

機能の選択で、属性の選択を最適化します。
ベイジアンスコアリングで、ツリーの拡大を制御します。
連続属性のビン分割を最適化します。
入力値の動的なグループ化で、最も重要な値を特定します。

Microsoft デシジョンツリーアルゴリズムは、高速かつスケーラブルで、簡単に並列処理できるよう設計されています。つまり、すべてのプロセッサが連携し、単一の一貫したモデルを作成します。これらの特性を兼ね備えているため、デシジョンツリー分類子はデータマイニングに最適のツールです。

パフォーマンスの制約が大きい場合、次の方法を使用すると、デシジョンツリーモデルのトレーニング中の処理時間を短縮できる場合があります。ただし、このとき、処理パフォーマンスを向上させるために属性を削除すると、モデルの結果が変わり、母集団を正しく代表しなくなる可能性があります。

ツリーの拡大を制限するには、COMPLEXITY_PENALTY パラメーターの値を大きくします。
作成されるツリー数を制限するには、アソシエーションモデル内のアイテム数を制限します。
オーバーフィットを回避するには、MINIMUM_SUPPORT パラメーターの値を大きくします。

任意の属性に対する不連続値の数を、10 以下に制限します。モデルに応じたさまざまな方法で、値のグループ化を試みることができます。

注
SQL Server 2012 Integration Services (SSIS) のデータ探索ツールを使用すると、データマイニングの開始前に、データ内の値の分布を視覚化し、値を適切にグループ化することができます。詳細については、「データプロファイルタスクとビューアー」を参照してください。また、Excel 2007 用データマイニングアドインを使用すると、データの探索、グループ化、およびラベル変更を Microsoft Excel で行うことができます。

SQL Server 2012 Integration Services (SSIS) のデータ探索ツールを使用すると、データマイニングの開始前に、データ内の値の分布を視覚化し、値を適切にグループ化することができます。詳細については、「データプロファイルタスクとビューアー」を参照してください。また、Excel 2007 用データマイニングアドインを使用すると、データの探索、グループ化、およびラベル変更を Microsoft Excel で行うことができます。

デシジョンツリーアルゴリズムのカスタマイズ

Microsoft デシジョンツリーアルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスおよび精度に影響を与えるパラメーターがサポートされています。マイニングモデル列またはマイニング構造列にモデリングフラグを設定して、データの処理方法を制御することもできます。

注
Microsoft デシジョンツリーアルゴリズムは、SQL Server のすべてのエディションで利用できます。ただし、Microsoft デシジョンツリーアルゴリズムの動作をカスタマイズするためのいくつかの高度なパラメーターは、特定のエディションの SQL Server だけで使用できます。 SQL Server の各エディションでサポートされる機能の一覧については、「SQL Server 2012 の各エディションがサポートする機能」(https://go.microsoft.com/fwlink/?linkid=232473) を参照してください。

Microsoft デシジョンツリーアルゴリズムは、SQL Server のすべてのエディションで利用できます。ただし、Microsoft デシジョンツリーアルゴリズムの動作をカスタマイズするためのいくつかの高度なパラメーターは、特定のエディションの SQL Server だけで使用できます。 SQL Server の各エディションでサポートされる機能の一覧については、「SQL Server 2012 の各エディションがサポートする機能」(https://go.microsoft.com/fwlink/?linkid=232473) を参照してください。

アルゴリズムパラメーターの設定

次の表は、Microsoft デシジョンツリーアルゴリズムで使用できるパラメーターを示しています。

COMPLEXITY_PENALTY
デシジョンツリーの拡大を制御します。値を小さくすると分割数が増加し、値を大きくすると分割数が減少します。次に示すように、既定値は特定のモデルの属性数に基づいて決定されます。
- 属性数が 1 ～ 9 の場合、既定値は 0.5 です。
- 属性数が 10 ～ 99 の場合、既定値は 0.9 です。
- 属性数が 100 以上の場合、既定値は 0.99 です。

FORCE_REGRESSOR
アルゴリズムによって計算された列の重要性にかかわらず、指定した列をアルゴリズムでリグレッサーとして使用するように設定します。このパラメーターは、連続属性を予測するデシジョンツリーでのみ使用します。

注
このパラメーターを設定すると、属性がアルゴリズムのリグレッサーとして使用されます。ただし、最終的なモデルにおいて属性が実際にリグレッサーとして使用されるかどうかは、分析結果によって決まります。リグレッサーとして使用された列を確認するには、モデルコンテンツに対するクエリを実行します。

このパラメーターを設定すると、属性がアルゴリズムのリグレッサーとして使用されます。ただし、最終的なモデルにおいて属性が実際にリグレッサーとして使用されるかどうかは、分析結果によって決まります。リグレッサーとして使用された列を確認するには、モデルコンテンツに対するクエリを実行します。

[一部のエディションの SQL Server だけで利用可能]

MAXIMUM_INPUT_ATTRIBUTES
選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。

既定値は 255 です。

この値を 0 に設定すると、機能の選択がオフになります。

[一部のエディションの SQL Server だけで利用可能]
MAXIMUM_OUTPUT_ATTRIBUTES
選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。

既定値は 255 です。

この値を 0 に設定すると、機能の選択がオフになります。

[一部のエディションの SQL Server だけで利用可能]
MINIMUM_SUPPORT
デシジョンツリー内で分割を生成するために必要なリーフケースの最小数を決定します。

既定値は 10 です。

データセットが非常に大きい場合は、オーバートレーニングを回避するため、この値を大きくする必要が生じることがあります。
SCORE_METHOD
分割スコアを計算するために使用する方法を決定します。使用できるオプションは以下のとおりです。

ID

名前

1

エントロピー

3

K2 事前分布を指定したベイズ定理

4

均一な事前分布を指定したベイズディリクレ等式 (BDE)

(既定値)

既定値は 4、または BDE です。

これらのスコアリング方法の詳細については、「機能の選択」を参照してください。

ID	名前
1	エントロピー
3	K2 事前分布を指定したベイズ定理
4	均一な事前分布を指定したベイズディリクレ等式 (BDE) (既定値)

SPLIT_METHOD
ノードを分割するために使用する方法を決定します。使用できるオプションは以下のとおりです。

ID	名前
1	Binary: 属性値の実際の数にかかわらず、ツリーが 2 つの分岐に分割されることを示します。
2	Complete: 属性値と同じ数の分割をツリーに作成できることを示します。
3	Both: バイナリ分割と完全分割のどちらを使用すると最適な結果が生成されるのかが、Analysis Services によって判断されることを示します。

既定値は 3 です。

モデリングフラグ

Microsoft デシジョンツリーアルゴリズムでは、次のモデリングフラグがサポートされています。モデリングフラグは、マイニング構造やマイニングモデルを作成するときに定義し、分析時に各列の値をどのように処理するかを指定します。詳細については、「モデリングフラグ (データマイニング)」を参照してください。

モデリングフラグ	説明
MODEL_EXISTENCE_ONLY	列が、次の 2 つの可能な状態を持つ列として扱われることを示します。Missing および Existing。 NULL は Missing 値になります。マイニングモデル列に適用されます。
NOT NULL	列に NULL を含めることはできないことを示します。モデルのトレーニング中に NULL が検出された場合はエラーが発生します。マイニング構造列に適用されます。

MODEL_EXISTENCE_ONLY

列が、次の 2 つの可能な状態を持つ列として扱われることを示します。Missing および Existing。 NULL は Missing 値になります。

マイニングモデル列に適用されます。

NOT NULL

列に NULL を含めることはできないことを示します。モデルのトレーニング中に NULL が検出された場合はエラーが発生します。

マイニング構造列に適用されます。

デシジョンツリーモデルのリグレッサー

Microsoft 線形回帰アルゴリズムを使用していない場合でも、連続属性の回帰を表すノードが、連続する数値の入出力を持つデシジョンツリーモデルに含まれることがあります。

連続する数値データ列がリグレッサーを表すことを指定する必要はありません。列に REGRESSOR フラグを設定しなくても、Microsoft デシジョンツリーアルゴリズムにより、列が自動的にリグレッサー候補として使用され、データセットが意味のあるパターンを持つ領域に分割されます。

しかし、FORCE_REGRESSOR パラメーターを使用すると、アルゴリズムで特定のリグレッサーが使用されるようにすることができます。このパラメーターは、Microsoft デシジョンツリーアルゴリズムと Microsoft 線形回帰アルゴリズムでのみ使用できます。このモデリングフラグを設定すると、ツリーのノードのパターンに合う a*C1 + b*C2 + ... という形式の回帰式をアルゴリズムが見つけようとします。残差の合計が計算され、偏差が大きすぎる場合には、ツリーが強制的に分割されます。

たとえば、Income を属性として使用して顧客の購入行動を予測する場合に、その列に REGRESSOR モデリングフラグを設定すると、アルゴリズムはまず、標準の回帰式を使用して Income の値を試します。偏差が大きすぎる場合はその回帰式が放棄され、ツリーが他の属性で分割されます。その後デシジョンツリーアルゴリズムは、分割後の各分岐で、Income をリグレッサーとして使用できるかどうかを試します。

必要条件

デシジョンツリーモデルには、キー列、入力列、および少なくとも 1 つの予測可能列が必要です。

入力列と予測可能列

Microsoft デシジョンツリーアルゴリズムでは、次の表に示す特定の入力列と予測可能列がサポートされています。マイニングモデルにおけるコンテンツの種類の意味については、「コンテンツの種類 (データマイニング)」を参照してください。

Column	コンテンツの種類
入力属性	Continuous、Cyclical、Discrete、Discretized、Key、Ordered、Table
予測可能な属性	Continuous、Cyclical、Discrete、Discretized、Ordered、Table

注
コンテンツの種類 Cyclical および Ordered はサポートされますが、アルゴリズムはこれらを不連続の値として扱い、特別な処理は行いません。

次の方法で共有

Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス

デシジョンツリーアルゴリズムの実装

ツリーの作成

不連続および連続の入力

スコアリング方法と機能の選択

スケーラビリティとパフォーマンス

デシジョンツリーアルゴリズムのカスタマイズ

アルゴリズムパラメーターの設定

モデリングフラグ

デシジョンツリーモデルのリグレッサー

必要条件

入力列と予測可能列

関連項目

参照

概念

その他のリソース

次の方法で共有

Microsoft デシジョン ツリー アルゴリズム テクニカル リファレンス

デシジョン ツリー アルゴリズムの実装

ツリーの作成

不連続および連続の入力

スコアリング方法と機能の選択

スケーラビリティとパフォーマンス

デシジョン ツリー アルゴリズムのカスタマイズ

アルゴリズム パラメーターの設定

モデリング フラグ

デシジョン ツリー モデルのリグレッサー

必要条件

入力列と予測可能列

関連項目

参照

概念

その他のリソース

Microsoft デシジョンツリーアルゴリズムテクニカルリファレンス

デシジョンツリーアルゴリズムの実装

デシジョンツリーアルゴリズムのカスタマイズ

アルゴリズムパラメーターの設定

モデリングフラグ

デシジョンツリーモデルのリグレッサー