次の方法で共有


デシジョン ツリー モデルの検証 (基本的なデータ マイニング チュートリアル)

 

対象: SQL Server 2016 Preview

Microsoft デシジョン ツリー アルゴリズムは、自転車の購入に影響する列をトレーニング セットのその他の列に基づいて予測します。

Microsoft デシジョン ツリー ビューアーをデシジョン ツリー マイニング モデルを調べるため、次のタブを提供します。

[デシジョン ツリー]

依存関係ネットワーク

[デシジョン ツリー] タブ

デシジョン ツリー ] タブで、データセット内のすべての予測可能な属性のデシジョン ツリーを表示できます。

ここで、モデルは、1 つだけを表示するツリーがあるため Bike Buyer だけ 1 つの列を予測します。 使用することが多くのツリーがあった場合、 ツリー ボックスを別のツリーを選択します。

参照する際、 TM_Decision_Tree モデル、デシジョン ツリー ビューアーでは、グラフの左側にある最も重要な属性を確認できます。 "最も重要" とは、これらの属性が結果に最も大きな影響を及ぼすことを意味します。 ツリーの下寄り (グラフの右側) にある属性は、あまり大きな効果を及ぼしません。

この例では、自転車購入の予測にとって最も重要な要素は年齢です。 このモデルは顧客を年齢でグループ化し、年齢グループごとに、次に重要な属性を示します。 たとえば、34 歳から 40 歳の顧客グループでは、年齢の次に強い予測子は所有している自動車の台数です。

[デシジョン ツリー] タブでモデルを調査するには

  1. 選択、 マイニング モデル ビューアー ] タブの [ データ マイニング デザイナーします。

    この場合、--構造に追加された最初のモデルを既定では、デザイナーに開かれた TM_Decision_Treeします。

  2. 虫眼鏡ボタンを使用してツリーの表示サイズを調整します。

    既定では、ツリーの上位 3 レベルのみが Microsoft ツリー ビューアーに表示されます。 ツリーの階層が 3 レベル未満の場合は、既存のすべてのレベルがビューアーに表示されます。 使用して複数のレベルを表示する、 レベルの表示 スライダーまたは 既定の展開 ] ボックスの一覧です。

  3. スライド レベルの表示 4 番目のバーにします。

  4. [背景] の値を 1に変更します。

    変更することで、 バック グラウンド 設定すると、すぐにわかります、対象の値を持つ各ノード内のケースの数 1 [Bike Buyer] にします。 このシナリオでは、各ケースが顧客を表すことに注意してください。 値 1 、顧客が自転車; 以前購入したことを示す値 0 、顧客が自転車を購入しなかったことを示します。 ノードの色が濃いほど、対象の値を持つケースの割合が高いことを示します。

  5. カーソルを置くというラベルが付いたノード すべてです。 ツールヒントに次の情報が表示されます。

    • ケースの総数

    • 自転車を購入していないケースの数

    • 自転車を購入したケースの数

    • [Bike Buyer] の値がないケースの数

    そのほか、ツリーの任意のノードの上にカーソルを置いて、直前のノードからそのノードに到達するために必要な条件を表示することもできます。 これと同じ情報を表示することもできる、 マイニング凡例します。

  6. ノードをクリックして Age > = 34 and < 41します。 ノード上の細い横棒としてヒストグラムが表示されます。ヒストグラムは、その年齢層の顧客の、以前に自転車を購入した顧客 (ピンク) と購入していない顧客 (青) の分布を表します。 ビューアーからは、車の所有台数が 0 ~ 1 台の 34 ~ 40 歳の顧客が自転車を購入する可能性が高いことがわかります。 さらに詳しく見ると、顧客の年齢が 38 ~ 40 歳の場合にはその可能性がさらに高くなることもわかります。

ここでは、構造とモデルを作成したときにドリルスルーを有効にしてあるため、モデル ケースやマイニング構造から詳細情報を取得することができます。これには、マイニング モデルには含まれていなかった列 (emailAddress や FirstName など) も含まれます。

詳細については、「ドリルスルー クエリ (データ マイニング)」を参照してください。

ケース データにドリルスルーするには

  1. ノードを右クリックして ドリル スルーモデル列のみします。

    各トレーニング ケースの詳細がスプレッドシート形式で表示されます。 これらの詳細は、マイニング構造を作成するときにケース テーブルとして選択した vTargetMail ビューから取得されています。

  2. ノードを右クリックして ドリル スルーモデルおよび構造列します。

    同じスプレッドシートの末尾に構造列が追加されて表示されます。

トップに戻る

[依存関係ネットワーク] タブ

依存関係ネットワーク ] タブには、マイニング モデルの予測可能性に影響を与える属性間のリレーションシップが表示されます。 依存関係ネットワーク ビューアーを使用すると、自転車の購入の予測において Age と Region が重要な要素になるという先ほどの調査結果が補強されます。

[依存関係ネットワーク] タブでモデルを調査するには
  1. クリックして、 Bike Buyer その依存関係を識別するためにノードです。

    依存関係ネットワークの中心ノード Bike Buyer, 、マイニング モデルの予測可能な属性を表します。 このグラフでは、予測可能な属性に影響を及ぼす、接続しているすべてのノードが強調表示されます。

  2. 調整、 すべてのリンク スライダーを最も影響の大きい属性を特定します。

    スライダーをドラッグすると、[Bike Buyer] 列に弱い効果だけを持つ属性がグラフから削除されます。 スライダーを調整すると、顧客が自転車を購入するかどうかの予測は、年齢と地域に最も大きく左右されることがわかります。

関連タスク

他の種類のモデルを使用してデータを探索するには、次のトピックを参照してください。

このレッスンの次の作業

#40; (&)、クラスタ リング モデルの表示基本的なデータ マイニングのチュートリアルと #41 です。

参照

マイニング モデル ビューアーのタスクと操作方法
[デシジョン ツリー] タブ (マイニング モデル ビューアー)
[依存関係ネットワーク] タブ (マイニング モデル ビューアー)
Microsoft ツリー ビューアーを使用したモデルの参照