リージョン モデルを使用して シーケンス クラスタリング を構築したので、データ マイニング デザイナーの [ マイニング モデル ビューアー ] タブにある Microsoft シーケンス クラスタリング ビューアーを使用して探索できます。 Microsoft シーケンス クラスター ビューアーには、クラスター ダイアグラム、クラスター プロファイル、クラスター特性、ClusterDiscrimination、State Transitions の 5 つのタブがあります。 このビューアーの使用方法の詳細については、「 Microsoft シーケンス クラスター ビューアーを使用したモデルの参照」を参照してください。
[クラスター ダイアグラム] タブ
[ クラスター ダイアグラム ] タブには、アルゴリズムによってデータベースで検出されたクラスターがグラフィカルに表示されます。 図のレイアウトは、クラスターのリレーションシップを表し、同様のクラスターが密接にグループ化されています。 既定では、各ノードの網掛けは、クラスター内のすべてのケースの密度を表します。ノードの網掛けは暗いほど、そのノードに含まれるケースが多くなります。 ノードのシェーディングの意味を変更して、各クラスター内の属性と状態のサポートを表すことができます。
クラスターの名前を変更して、ターゲット クラスターの識別と操作を容易にすることもできます。 このチュートリアルでは、太平洋地域の顧客の割合が最も高いクラスターと、全体的なケースが最も多いクラスターの名前を変更します。
注
特定のクラスターに割り当てられるケースは、データとモデル パラメーターに応じて、モデルを再処理するときに変更される可能性があります。 また、クラスターの名前を変更すると、マイニング モデルの再処理時に名前が失われます。
クラスターの強調表示に使用する属性を変更するには
[ シェーディング変数 ]リストで、[ モデル]を選択します。
状態の一覧で サイクリングキャップ を選択します。
ダイアグラムが更新され、各クラスターで選択した製品の濃度が表示されます。 最も濃いシェーディングを持つクラスターには、サイクリングキャップの密度が最も高くなります。 網かけ変数を変更して、任意の入力列の任意の状態を使用できます。
シェーディング変数リストで、人口を選択します。
シェーディング変数を母集団に変更すると、ダイアグラムが更新され、サイズ別にクラスターが比較されます。 最も濃い網かけを持つクラスターには、他のクラスターよりも多くのケースが含まれています。
モデル内のノードの名前を変更するには
シェーディング変数を
Regionに変更し、[状態] を [太平洋] に設定します。グラフ内で最も暗いノードを強調表示します。
このクラスターを右クリックし、[クラスター名の変更] を選択 します。
Pacific Cluster という名前を入力します。
シェーディング変数の値を母集団に変更します。
更新されたグラフで、最も暗いクラスター (最大のクラスター) を見つけます。 どのクラスターが最も大きいかをシェーディングで確認できない場合は、各クラスターの上にマウスを置いてツールヒントを表示し、ほとんどのケースを含むクラスターを選択します。
このクラスターを右クリックし、[クラスター名の変更] を選択 します。 新しい名前を入力
Largest Cluster。
クラスターを表すノードからドリルスルーして、各クラスター内のケースの詳細を表示できます。 これは、顧客に電子メールを送信するなど、分析の結果に対してアクションを実行する場合に役立ちます。 また、構造に含めたが、モデルでは使用しなかったケースの他の属性 (Region や IncomeGroup など) を参照することもできます。 マイニング モデルから基になるケースへのドリルスルーの詳細については、「 ドリルスルー クエリ (データ マイニング)」を参照してください。
クラスター図から詳細を掘り下げるには
Pacific Cluster右クリックし、[ドリルスルー] を選択し、[モデル] 列と [構造] 列を選択します。[ ドリルスルー ] ダイアログ ボックスが開きます。 モデルで使用されていないが、クエリに使用できる列には、 Structure というプレフィックスが付きます。
このクラスターには、主に太平洋リージョンの顧客が含まれており、他のリージョンの顧客は少数であることがわかります。
入れ子になった列 v Assoc Seq Line Items のプラス記号をクリックして、特定の顧客注文の項目の順序をご覧ください。
[ ドリルスルー ] ダイアログ ボックスを閉じます。
注
[再生] ボタンを使用すると、データを再クエリできます。ただし、モデルが他のプロセスによってバックグラウンドで動的に更新されていない限り、再クエリによって表示されるデータは変更されません。
[クラスター プロファイル] タブ
[ クラスター プロファイル ] タブには、各クラスター内のシーケンスが表示されます。 クラスターは、[ 状態] 列の右側にある個々の列に一覧表示されます。
ビューアーの [ モデル ] 行にはクラスター内の項目の全体的な分布が記述され、[ Model.samples ] 行には項目のシーケンスが含まれています。 Model.samples 行の各セルのカラー シーケンスの各行は、クラスター内でランダムに選択されたユーザーの動作を表します。
個々のシーケンス ヒストグラムの各色は、製品モデルを表します。 マイニングレジェンドは、色分けと製品モデル名の両方を使用して製品のシーケンスを示します。 クラスター化のために他の列 (リージョンや収入グループなど) をモデルに追加した場合、ビューアーには、各クラスター内のこれらの値の分布を示す列ごとに追加の行が含まれます。
クラスターで最も一般的なシーケンスを表示するには
クラスター
Largest Clusterの列の [モデル] 行を右クリックし、[凡例の表示] を選択します。[色] 列には、シーケンス内の項目の頻度を示す網掛けされたバーが含まれています。 各項目は異なる色で表されます。 [ 意味 ] 列には、各色の製品モデル名が一覧表示されます。 [ディストリビューション] 列には、このアイテムがシーケンスに含まれていたケースの割合が表示されます。
マイニング凡例を閉じます。
人口 見出しの列にある Model.samples 行を右クリックし、凡例の表示 を選択します。
モデル全体のシーケンスの一覧をスキャンする
.マイニング凡例には最も一般的なシーケンスが最初に一覧表示されるため、Mountain Tire Tube が多くのシーケンスの最初の項目であることがわかります。 これは、顧客が最初に買い物かごにマウンテンタイヤチューブを入れる可能性が非常に高いということです。
クラスター ビューアからケースを詳しく調べるには
Region属性の行が見つかるまで、[属性] ウィンドウを下にスクロールします。この行には、モデル内の各クラスターのヒストグラムと、 Population 用の 1 つの追加ヒストグラムが含まれています。これは、モデルで使用されるケースのセット全体を意味します。 ヒストグラムは色が異なるバーで、各色は属性を表し、その属性の色付きセクションのサイズは、その属性を持つケースの割合を表します。
Pacific ClusterとLargest Clusterの名前を変更したクラスターのヒストグラムを比較します。 各クラスターは異なる列に表示されます。どちらも単色のように見えますが、色は異なります。
Region行で、Largest Clusterの色付きのヒストグラムの上にマウス を置きます。ツールヒントには、各リージョンのケースの実際の割合を示す値が表示されます。
Pacific ClusterのRegion行で色付きのヒストグラムを右クリックし、[ドリル スルー] を選択して、[モデル列のみ] を選択します。スクロール バーを移動して、このクラスター内のすべての顧客を確認します。
改めて詳細を掘り下げて分析すると、このクラスターには主に太平洋地域からの注文が含まれていることがわかりますが、北米やヨーロッパ地域からの注文もいくつか含まれています。
[ ドリルスルー ] ダイアログ ボックスを閉じます。
[クラスターの特性] タブ
[ クラスターの特性 ] タブには、選択したクラスターの属性値の重要度を視覚的に表すバーが表示され、クラスター内の状態間の遷移が要約されます。 [変数] 列には、選択したクラスターまたは母集団にとってモデルが重要であることが判明した内容 (特定の値または値間のリレーションシップ (遷移と呼ばれます) が示されます。 [値] 列には値または遷移の詳細が表示され、[確率] 列は、この属性または遷移の重みを視覚的に表します。
クラスターの重要な属性を表示するには
[ クラスター ] ドロップダウン リストで、[
Pacific Cluster] を選択します。一覧が更新され、
Pacific Cluster名前を変更したクラスターの特性が表示されます。 このクラスターでは、最も重要な特性はRegionです。Regionの行にある網掛けされたバーの上にマウスを停止させます。値が太平洋である確率は非常に高いです。 これらの値を解釈する方法の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズムテクニカル リファレンス」を参照してください。
最初の遷移行が見つかるまで、クラスターの特性の一覧を確認します。
遷移行には、 変数 列の 「遷移」というテキストと、「 値 」列の順次属性値の組み合わせが含まれます。 シーケンスには、開始点と欠損値を含めることもできます。
たとえば、遷移に [Start] -> Road Tire Tube という値があるとします。 つまり、このクラスターのお客様は、買い物かごにロード タイヤ チューブを最初に入れることが頻繁に発生します。 これは、製品が顧客が最初に探す人気のあるアイテムであることを示している場合もあれば、購入サイトで製品を簡単に見つけることができることを示しているだけかもしれません。
[開始] または 欠損している がない最初の画面切り替えが見つかるまで、一覧をスクロールします。
たとえば、ツーリング タイヤ、ツーリング タイヤ チューブのトランジションを見つけたとします。 つまり、このクラスターの顧客は、これらの項目を正確にこの順序で頻繁に一緒に購入しました。
この画面切り替えのために、網掛けされたバーの上にマウスを置きます。
この遷移の確率はパーセンテージで表示されます。
クラスター ドロップダウン リストで、人口 (すべて) を選択します。
属性の一覧が更新され、モデルの作成に使用されるすべての注文の特性が表示されます。 このマイニング モデルでは、クラスターを区別するための最も重要な特性は、北米の値を持つ
Regionです。
これらのタスクを確認すると、次の 2 つのことが実現します。 1 つ目は、意味のある数の組み合わせを取得するために大量のデータが必要であるということです。 たとえば、確率が最も高いシーケンスには 、[Start] または Missing 状態が含まれる可能性があります。
2 つ目は、 Regionの属性に対して強力なクラスタリング効果があるため、シーケンスのグループを見にくくすることです。 したがって、シーケンスのみを使用し、リージョンまたは収入の列を含まない別のモデルを作成することにします。
[クラスターの識別] タブ
[ クラスターの識別 ] タブを使用すると、2 つのクラスターを比較して、特定のクラスターと別のクラスターを区別する属性を判断できます。 タブには、 変数、 値、 クラスター 1、クラスター2 の 4 つの列があります。 クラスター 1 とクラスター 2 として使用する任意のクラスターを選択できます。
[変数] 列には、属性の名前が表示されます。列名または列名と単語遷移の組み合わせを指定できます。 [値] 列には、属性または遷移の正確な値が表示されます。 クラスター 1 とクラスター2 の列の網掛けされたバーは、比較するクラスター内の属性の強度を示します。 バーが長いほど、クラスターにはその属性を持つケースが含まれる可能性が高くなります。
[クラスター識別] タブを使用して 2 つのクラスターを比較するには
[ クラスターの識別 ] タブの [ クラスター 1] で、[
Pacific Clusterを選択します。既定では、 クラスター 2 の選択は 太平洋クラスターの補数に変わります。
Pacific Clusterを他のすべてのケースと区別する最上位の属性は、リージョンです。 リージョンはクラスタリングの強力な属性であるため、他の属性が隠されます。 この影響を回避するには、いくつかの小さなクラスターを相互に比較してみてください。 これを行うと、属性の一覧が変更され、モデル間の遷移が増える可能性があります。切り替え行を見つけ、網掛けされたバーの上にマウスを置きます。
[値] 列の項目には、状態と遷移の両方を含めることができます。 各項目の網かけは、識別スコアを示します。 さまざまなスコアの意味の詳細については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
[状態遷移] タブ
[ 状態遷移 ] タブでは、クラスターを選択し、その状態遷移を参照できます。 クラスターのドロップダウン リストから 人口 (すべて) を選択した場合、図ではマイニング モデル全体の状態の分布が表示されます。
グラフ内の各ノードは、分析しようとしているシーケンスの状態 (または可能な値) を表します。 ノードの背景色は、その状態の頻度を表します。 線は、状態間の遷移を示すいくつかの状態を接続します。 スライダーを上下に移動して、遷移の確率しきい値を変更できます。 数値は、その状態の確率を示す一部のノードに関連付けられています。
[状態遷移] タブでリレーションシップを探索するには
マイニング モデル ビューアーの [ 状態遷移 ] タブで、クラスターの一覧から
Pacific Clusterを選択します。 [ エッジ ラベルの表示] オプションが選択されていることを確認します。グラフが更新され、このクラスターで最も一般的な遷移が表示されます。
線で接続されている任意のノードをクリックしてください。
グラフが更新され、関連するノードが強調表示されます。 線の横にある数値は、遷移の確率を示します。
スライダーを [ すべてのリンク] まで上げて、グラフに含まれる遷移の数を増やします。
人口 (全て) を クラスタ から選択します。
別のクラスターを読み込むと、グラフが既定の表示設定にリセットされるため、スライダー コントロールは中央の位置にリセットされることに注意してください。
グラフ内で最も暗いノード ( Sport-100) をクリックします。
この製品を他の製品に接続するラインがないことに注意してください。
スライダーを 1 ステップ上げて、グラフに含まれる遷移の数を増やします。 すべての リンク にはまだ移動しないでください。
グラフにさらにいくつかの遷移を追加することでグラフが更新されますが、Sport-100 モデルを含む遷移はありません。
スライダー コントロールを すべてのリンクに移動します。 Sport-100 ノードがまだ選択されていない場合はクリックします。
グラフが更新され、Sport-100 製品を含む多くの遷移が表示されます。 接続線の矢印の方向は、Sport-100 項目がペアの最初の項目として選択されたか、2 番目の項目として選択されたかを示します。
[ツーリング タイヤ] のノードをクリックし、スライダー コントロールを中央の位置に戻します。
最初は、ツーリングタイヤが他の製品に接続する遷移線が多数ありますが、確率のしきい値を高めると、可能性の低い遷移がグラフから削除され、ツーリングタイヤ > ツーリングタイヤチューブへの遷移だけが残ります。 この移行は、顧客が買い物かごにツーリングタイヤを入れた場合、顧客が次にツーリングタイヤチューブをバスケットに入れる可能性が高いことを意味します。
汎用コンテンツ ツリー ビューアー
このビューアーは、アルゴリズムやモデルの種類に関係なく、すべてのモデルに使用できます。 MicrosoftGeneric コンテンツ ツリー ビューアーは、[ビューアー] ドロップダウン リストから使用できます。
コンテンツ ツリーは、マイニング モデルを一連のノードとして表現したものです。各ノードは、トレーニング データに関する学習済みの知識を表します。 ノードには、パターン、一連のルール、クラスター、または一部の属性を共有する日付の範囲の定義を含めることができます。 ノードの正確な内容は、アルゴリズムと予測可能な属性によって異なりますが、コンテンツの一般的な表現は同じです。
各ノードを展開すると、詳細レベルが上がり、ノードの内容をクリップボードにコピーできます。 詳細については、「 Microsoft 汎用コンテンツ ツリー ビューアーを使用したモデルの参照」を参照してください。
汎用コンテンツ ツリー ビューアーを使用してシーケンス クラスタリング モデルの詳細を表示するには
[ マイニング モデル ビューアー ] タブで、[ ビューアー ] の一覧をクリックし、[ Microsoft 汎用コンテンツ ツリー ビューアー] を選択します。
[ ノード キャプション ] ウィンドウで、[
Pacific Cluster (1)] をクリックします。このノードの名前には、クラスターに割り当てたフレンドリ名と、基になるノード ID の両方が含まれます。 ノード ID を使用して、モデルの追加の詳細にドリルダウンできます。
クラスター 1 のシーケンス レベルという名前の最初の子ノードを展開します。
クラスターのシーケンス レベル ノードには、そのクラスターに含まれる状態と遷移に関する詳細が含まれています。 NODE_DISTRIBUTION列で使用できるこれらの詳細を使用して、各クラスターまたはモデルのシーケンスと状態をしばらく調べることができます。
引き続きノードを展開し、HTML ビューアー ウィンドウで詳細を表示します。
マイニング モデル コンテンツの詳細と、ビューアーで詳細を使用する方法については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
このレッスンの次の作業
関連するシーケンス クラスタリング モデルの作成 (中間データ マイニング チュートリアル)