デシジョン ツリー モデルの検証 (基本的なデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
Microsoft デシジョン ツリー アルゴリズムは、自転車の購入に影響する列をトレーニング セットのその他の列に基づいて予測します。
Microsoft デシジョン ツリー ビューアーをデシジョン ツリー マイニング モデルを調べるため、次のタブを提供します。
[デシジョン ツリー]
依存関係ネットワーク
[デシジョン ツリー] タブ
デシジョン ツリー ] タブで、データセット内のすべての予測可能な属性のデシジョン ツリーを表示できます。
ここで、モデルは、1 つだけを表示するツリーがあるため Bike Buyer だけ 1 つの列を予測します。 使用することが多くのツリーがあった場合、 ツリー ボックスを別のツリーを選択します。
参照する際、 TM_Decision_Tree モデル、デシジョン ツリー ビューアーでは、グラフの左側にある最も重要な属性を確認できます。 "最も重要" とは、これらの属性が結果に最も大きな影響を及ぼすことを意味します。 ツリーの下寄り (グラフの右側) にある属性は、あまり大きな効果を及ぼしません。
この例では、自転車購入の予測にとって最も重要な要素は年齢です。 このモデルは顧客を年齢でグループ化し、年齢グループごとに、次に重要な属性を示します。 たとえば、34 歳から 40 歳の顧客グループでは、年齢の次に強い予測子は所有している自動車の台数です。
[デシジョン ツリー] タブでモデルを調査するには
選択、 マイニング モデル ビューアー ] タブの [ データ マイニング デザイナーします。
この場合、--構造に追加された最初のモデルを既定では、デザイナーに開かれた TM_Decision_Treeします。
虫眼鏡ボタンを使用してツリーの表示サイズを調整します。
既定では、ツリーの上位 3 レベルのみが Microsoft ツリー ビューアーに表示されます。 ツリーの階層が 3 レベル未満の場合は、既存のすべてのレベルがビューアーに表示されます。 使用して複数のレベルを表示する、 レベルの表示 スライダーまたは 既定の展開 ] ボックスの一覧です。
スライド レベルの表示 4 番目のバーにします。
[背景] の値を 1に変更します。
変更することで、 バック グラウンド 設定すると、すぐにわかります、対象の値を持つ各ノード内のケースの数 1 [Bike Buyer] にします。 このシナリオでは、各ケースが顧客を表すことに注意してください。 値 1 、顧客が自転車; 以前購入したことを示す値 0 、顧客が自転車を購入しなかったことを示します。 ノードの色が濃いほど、対象の値を持つケースの割合が高いことを示します。
カーソルを置くというラベルが付いたノード すべてです。 ツールヒントに次の情報が表示されます。
ケースの総数
自転車を購入していないケースの数
自転車を購入したケースの数
[Bike Buyer] の値がないケースの数
そのほか、ツリーの任意のノードの上にカーソルを置いて、直前のノードからそのノードに到達するために必要な条件を表示することもできます。 これと同じ情報を表示することもできる、 マイニング凡例します。
ノードをクリックして Age > = 34 and < 41します。 ノード上の細い横棒としてヒストグラムが表示されます。ヒストグラムは、その年齢層の顧客の、以前に自転車を購入した顧客 (ピンク) と購入していない顧客 (青) の分布を表します。 ビューアーからは、車の所有台数が 0 ~ 1 台の 34 ~ 40 歳の顧客が自転車を購入する可能性が高いことがわかります。 さらに詳しく見ると、顧客の年齢が 38 ~ 40 歳の場合にはその可能性がさらに高くなることもわかります。
ここでは、構造とモデルを作成したときにドリルスルーを有効にしてあるため、モデル ケースやマイニング構造から詳細情報を取得することができます。これには、マイニング モデルには含まれていなかった列 (emailAddress や FirstName など) も含まれます。
詳細については、「ドリルスルー クエリ (データ マイニング)」を参照してください。
ケース データにドリルスルーするには
ノードを右クリックして ドリル スルー し モデル列のみします。
各トレーニング ケースの詳細がスプレッドシート形式で表示されます。 これらの詳細は、マイニング構造を作成するときにケース テーブルとして選択した vTargetMail ビューから取得されています。
ノードを右クリックして ドリル スルー し モデルおよび構造列します。
同じスプレッドシートの末尾に構造列が追加されて表示されます。
トップに戻る
[依存関係ネットワーク] タブ
依存関係ネットワーク ] タブには、マイニング モデルの予測可能性に影響を与える属性間のリレーションシップが表示されます。 依存関係ネットワーク ビューアーを使用すると、自転車の購入の予測において Age と Region が重要な要素になるという先ほどの調査結果が補強されます。
[依存関係ネットワーク] タブでモデルを調査するには
クリックして、 Bike Buyer その依存関係を識別するためにノードです。
依存関係ネットワークの中心ノード Bike Buyer, 、マイニング モデルの予測可能な属性を表します。 このグラフでは、予測可能な属性に影響を及ぼす、接続しているすべてのノードが強調表示されます。
調整、 すべてのリンク スライダーを最も影響の大きい属性を特定します。
スライダーをドラッグすると、[Bike Buyer] 列に弱い効果だけを持つ属性がグラフから削除されます。 スライダーを調整すると、顧客が自転車を購入するかどうかの予測は、年齢と地域に最も大きく左右されることがわかります。
関連タスク
他の種類のモデルを使用してデータを探索するには、次のトピックを参照してください。
このレッスンの次の作業
#40; (&)、クラスタ リング モデルの表示基本的なデータ マイニングのチュートリアルと #41 です。
参照
マイニング モデル ビューアーのタスクと操作方法
[デシジョン ツリー] タブ (マイニング モデル ビューアー)
[依存関係ネットワーク] タブ (マイニング モデル ビューアー)
Microsoft ツリー ビューアーを使用したモデルの参照