クラスター モデルの検証 (基本的なデータ マイニング チュートリアル)
Microsoft クラスター アルゴリズムでは、類似の特性を持つクラスターにケースがグループ化されます。 このグループ化は、データの探索、データの異常の特定、および予測の作成に役立ちます。
Microsoft クラスター ビューアーには、クラスタリング マイニング モデルを調べるための次のタブがあります。
クラスター ダイアグラム
クラスターのプロファイル
クラスターの特性
クラスターの識別
ここでは、適切なビューアーを選択してその他のマイニング モデルを検証する方法を説明します。
[クラスター ダイアグラム] タブ
[クラスター ダイアグラム] タブには、マイニング モデル内のすべてのクラスターが表示されます。 クラスター間を結ぶ線は "緊密度" を表しており、緊密度が高いほど濃い線で表示されます。 各クラスター本体の色は、クラスター内の変数の頻度と状態を表します。
[クラスター ダイアグラム] タブでモデルを調査するには
TM_Clustering モデルに切り替えるには、[マイニング モデル ビューアー] タブの上部にある [マイニング モデル] ボックスの一覧を使用します。
[ビューアー] ボックスの一覧で、[Microsoft クラスター ビューアー] をクリックします。
[シェーディング変数] ボックスで、[Bike Buyer] を選択します。
既定の変数は [母集団] ですが、これをモデル内の任意の変数に変更すれば、どのクラスターのメンバーに目的の属性が割り当てられているかを調べることができます。
[状態] ボックスで [1] を選択し、自転車を購入したケースを検証します。
[密度] の凡例に、[シェーディング変数] と [状態] で選択した属性状態の組み合わせの密度が表示されます。 この例では、最も色の濃いクラスターに自転車の購入者が最も多く含まれることが示されます。
最も色の濃いクラスター上にマウス ポインターを置きます。
ツールヒントに、属性が Bike Buyer = 1 であるケースの割合が表示されます。
密度が最も高いクラスターを選択して右クリックし、[クラスター名の変更] をクリックして、後で識別しやすいように「自転車購入者率高」と入力します。 [OK] をクリックします。
最も色の薄い (最も密度の低い) クラスターを見つけます。 クラスターを右クリックして [クラスター名の変更] をクリックし、「自転車購入者率低」と入力します。 [OK] をクリックします。
[自転車購入者率高] クラスターをクリックし、その他のクラスターとのつながりを明確に表示するペインの領域にドラッグします。
クラスターを選択すると、そのクラスターと別のクラスターをつなぐ線が強調表示され、このクラスターに対するすべての関係を簡単に確認できます。 クラスターが選択されていないときは、ダイアグラム内にあるすべてのクラスター間の相互関係の度合いを、線の濃さによって確認できます。 網掛けが薄いか存在しない場合は、クラスターがあまり似ていません。
ネットワークの左側にあるスライダーを使用して、緊密度の低いリンクを非表示にし、緊密な関係にあるクラスターだけを表示します。 Adventure Works Cycles のマーケティング部門は、絞り込みメール配信に最適な方法を決定する際に、類似するクラスターをまとめることができます。
トップに戻る
[クラスターのプロファイル] タブ
[クラスターのプロファイル] タブには、TM_Clustering モデルの全体的なビューが表示されます。 [クラスターのプロファイル] タブには、モデル内の各クラスターに対応する列が含まれています。 一番左側の列には、少なくとも 1 つのクラスターに関連付けられているすべての属性が表示されます。 その他の部分には、それぞれのクラスターについて、各属性の状態の分布状況が表示されます。 離散変数の分布は色分けされたバーで示され、これらのバーの最大数は [ヒストグラム バー] で指定できます。 連続属性はダイヤモンド グラフで示されます。このグラフでは、各クラスターの平均と標準偏差を確認できます。
[クラスターのプロファイル] タブでモデルを調査するには
[ヒストグラム] バーを [5] に設定します。
このモデルでは、1 つの変数に対する状態の最大数が 5 になります。
[マイニング凡例] が [属性のプロファイル] の表示を妨げている場合は、[マイニング凡例] を他の場所に移動します。
[自転車購入者率高] 列を選択し、[母集団] 列の右にドラッグします。
[自転車購入者率低] 列を選択し、[自転車購入者率高] 列の右にドラッグします。
[自転車購入者率高] 列をクリックします。
[変数] 列が、そのクラスターでの重要度順に並べ替えられます。 列をスクロールし、[自転車購入者率高] クラスターの特性を確認します。 たとえば、多くの場合、このクラスターに属する人は通勤距離が短い傾向にあります。
[自転車購入者率高] 列の [Age] セルをダブルクリックします。
[マイニング凡例] に詳細が表示され、顧客の年齢の範囲と平均年齢を確認できます。
[自転車購入者率低] 列を右クリックし、[列の非表示] をクリックします。
トップに戻る
[クラスターの特性] タブ
[クラスターの特性] タブでは、各クラスターの特性を詳細に検証できます。 ([クラスターのプロファイル] タブのように) すべてのクラスターの特性を比較するのではなく、一度に 1 つのクラスターを検証することができます。 たとえば、[クラスター] ボックスの一覧から [自転車購入者率高] を選択した場合に、このクラスターの顧客の特性を確認できます。 [クラスターのプロファイル] ビューアーとは表示が異なりますが、結果は同じです。
注 |
---|
HoldoutSeed の初期値を設定していない場合は、モデルを処理するたびに結果が変わります。 詳細については、「HoldoutSeed 要素」を参照してください。 |
トップに戻る
[クラスターの識別] タブ
[クラスターの識別] タブでは、あるクラスターと別のクラスターを識別するための特性を確認できます。 [クラスター 1] の一覧と [クラスター 2] の一覧から 1 つずつクラスターを選択すると、それら 2 つのクラスターの相違が計算され、違いが最も大きい属性の一覧が表示されます。
[クラスターの識別] タブでモデルを調査するには
[クラスター 1] ボックスで、[自転車購入者率高] を選択します。
[クラスター 2] ボックスで、[自転車購入者率低] を選択します。
[変数] をクリックしてアルファベット順に並べ替えます。
[自転車購入者率低] と [自転車購入者率高] のクラスターの顧客の大きな違いには、年齢、車の所有、子供の数、地域などがあります。
このレッスンの次の作業
Naive Bayes モデルの検証 (基本的なデータ マイニング チュートリアル)
このレッスンの前の作業
デシジョン ツリー モデルの検証 (基本的なデータ マイニング チュートリアル)
関連項目
参照
[クラスターの識別] タブ (マイニング モデル ビューアー)
[クラスターのプロファイル] タブ (マイニング モデル ビューアー)
[クラスターの特性] タブ (マイニング モデル ビューアー)
[クラスター ダイアグラム] タブ マイニング モデル ビューアー)