次の方法で共有


デシジョン ツリー モデルの探索 (基本的なデータ マイニング チュートリアル)

Microsoft デシジョン ツリー アルゴリズムは、トレーニング セット内の残りの列に基づいて、自転車購入の決定に影響を与える列を予測します。

デシジョン ツリー タブ

[ デシジョン ツリー ] タブでは、データセット内のすべての予測可能な属性のデシジョン ツリーを表示できます。

この場合、モデルは Bike Buyer という 1 つの列のみを予測するため、表示するツリーは 1 つだけです。 ツリーが増える場合は、[ ツリー ] ボックスを使用して別のツリーを選択できます。

デシジョン ツリー ビューアーで TM_Decision_Tree モデルを表示すると、グラフの左側に最も重要な属性が表示されます。 「最も重要」とは、これらの属性が結果に最も大きな影響を与えるということです。 ツリーの下 (グラフの右側) にある属性の効果は少なくなります。

この例では、自転車購入を予測する上で最も重要な要因は年齢です。 モデルは年齢別に顧客をグループ化し、各年齢グループの次に重要な属性を示します。 たとえば、34 歳から 40 歳までの顧客のグループでは、所有されている車の数は、年齢後の最も強い予測器です。

デシジョン ツリー タブでモデルを探索するには

  1. データ マイニング デザイナーの [マイニング モデル ビューアー] タブを選択します。

    既定では、構造体に追加された最初のモデル (この場合は TM_Decision_Tree) にデザイナーが開きます。

  2. 虫眼鏡ボタンを使用して、ツリーディスプレイのサイズを調整します。

    既定では、Microsoft ツリー ビューアーにはツリーの最初の 3 つのレベルのみが表示されます。 ツリーに含まれるレベルが 3 つ未満の場合、ビューアーには既存のレベルのみが表示されます。 [レベルの表示] スライダーまたは [既定の拡張] リストを使用して、より多くのレベルを表示できます。

  3. スライド ショー レベル を 4 番目のバーに移動します。

  4. 背景の値を1に変更します。

    背景設定を変更すると、[Bike Buyer]のターゲット値が1の各ノードのケース数をすばやく確認できます。 この特定のシナリオでは、各ケースが顧客を表します。 1値は、顧客が以前に自転車を購入したことを示します。値 0 は、顧客が自転車を購入していないことを示します。 ノードの網かけが濃いほど、ターゲット値を持つノード内のケースの割合が高くなります。

  5. [すべて] というラベルの付いたノードの上にカーソルを置きます。 ツールヒントには、次の情報が表示されます。

    • ケースの合計数

    • 自転車を購入しない購入者のケース数

    • 自転車購入者数

    • [Bike Buyer] の欠損値を持つケースの数

    または、ツリー内の任意のノードの上にカーソルを置いて、そのノードの前にあるノードからそのノードに到達するために必要な条件を確認します。 マイニングの凡例でも同じ情報を確認できます。

  6. Age >=34 および 41 のノードをクリックします。 ヒストグラムは、ノード全体で薄い水平バーとして表示され、以前に自転車を購入しなかった (ピンク色) としなかったこの年齢範囲の顧客の分布を表します。 ビューアーには、34 歳から 40 歳までの 1 台または 1 台の車を持たないお客様が自転車を購入する可能性が高いと表示されます。 さらに一歩進んで、顧客が実際に38歳から40歳であれば、自転車を購入する可能性が高くなることがわかります。

構造とモデルの作成時にドリルスルーを有効にしたため、マイニング モデルに含まれていない列 (emailAddress、FirstName など) を含め、モデル ケースとマイニング構造から詳細情報を取得できます。

詳細については、「 ドリルスルー クエリ (データ マイニング)」を参照してください。

ケースデータにアクセスするために

  1. ノードを右クリックし、[ ドリルスルー ]、[ モデル列のみ]の順に選択します。

    各トレーニング ケースの詳細はスプレッドシート形式で表示されます。 これらの詳細は、マイニング構造を構築するときにケース テーブルとして選択した vTargetMail ビューから取得されます。

  2. ノードを右クリックし、[ ドリルスルー ]、[ モデル列と構造列]の順に選択します。

    同じスプレッドシートが表示され、末尾に構造列が追加されます。

[依存関係ネットワーク] タブ

[ 依存関係ネットワーク ] タブには、マイニング モデルの予測能力に寄与する属性間のリレーションシップが表示されます。 Dependency Network ビューアーは、年齢と地域が自転車の購入を予測する上で重要な要因であるという調査結果を強化します。

[依存関係ネットワーク] タブでモデルを探索するには
  1. Bike Buyer ノードをクリックして、その依存関係を識別します。

    依存関係ネットワークの中心ノード ( Bike Buyer) は、マイニング モデルの予測可能な属性を表します。 グラフでは、予測可能な属性に影響を与える接続済みノードが強調表示されます。

  2. [ すべてのリンク ] スライダーを調整して、最も影響力のある属性を特定します。

    スライダーを下にドラッグすると、[Bike Buyer]列に弱い効果しかない属性がグラフから削除されます。 スライダーを調整すると、年齢と地域が自転車購入者であるかどうかを予測する上で最も大きな要因であることがわかります。

他の種類のモデルを使用してデータを調べるには、次のトピックを参照してください。

このレッスンの次の作業

クラスタリング モデルの探索 (基本的なデータ マイニング チュートリアル)

こちらもご覧ください

マイニング モデル ビューアーのタスクと操作方法
[デシジョン ツリー] タブ (マイニング モデル ビューアー)
[依存関係ネットワーク] タブ (マイニング モデル ビューアー)
Microsoft ツリー ビューアーを使用してモデルを参照する