シーケンス クラスター モデルの検証 (中級者向けデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
これでビルドした、 Sequence Clustering with Region モデルを検証を使用して、 Microsoft シーケンス クラスター ビューアーで、 マイニング モデル ビューアー データ マイニング デザイナーのタブをクリックします。 Microsoft シーケンス クラスター ビューアーには、5 つのタブが含まれています: クラスター ダイアグラム, 、クラスターのプロファイル, 、クラスターの特性, 、ClusterDiscrimination, 、および 状態遷移します。 このビューアーを使用する方法の詳細については、次を参照してください。 Microsoft シーケンス クラスター ビューアーを使用してモデルを参照してします。
[クラスター ダイアグラム] タブ
[クラスターのプロファイル] タブ
[クラスターの特性] タブ
[クラスターの識別] タブ
[状態遷移] タブ
汎用コンテンツ ツリー ビューアー
[クラスター ダイアグラム] タブ
クラスター ダイアグラム ] タブは、データベース内のアルゴリズムが検出されたクラスターをグラフィカルに表示されます。 ダイアグラムのレイアウトは、類似するクラスターを緊密にグループ化したクラスターのリレーションシップを表します。 既定では、各ノードの色の濃さはクラスターに存在するケースの密度を表し、ノード色が濃くなるほど多数のケースが存在することになります。 ノードの色の濃さが各クラスター内の属性や状態のサポートを表すように、設定を変更することもできます。
目的のクラスターを簡単に識別したり操作したりできるようにクラスターの名前を変更することもできます。 このチュートリアルでは、太平洋地域の顧客の割合が最も高いクラスターと全体のケースの数が最も多いクラスターの名前を変更します。
注意
データとモデル パラメーターによっては、モデルを再処理したときに、特定のクラスターに割り当てられたケースが変更されることがあります。 また、クラスターの名前を変更した場合、それらの名前は、マイニング モデルを再処理すると失われます。
クラスターを強調表示するために使用される属性を変更するには
シェーディング変数 一覧で、[ モデルします。
選択 Cycling Cap で、 状態 ] ボックスの一覧です。
ダイアグラムが更新されて、選択した製品の各クラスターにおける集中度が表示されます。 最も色の濃いクラスターに、サイクリング キャップが最も高い密度で含まれます。 シェーディング変数は、任意の入力列の任意の状態を使用するように変更できます。
シェーディング変数 一覧で、[ 母集団します。
シェーディング変数を母集団に変更すると、ダイアグラムが更新されて、クラスターがサイズで比較されるようになります。 最も色の濃いクラスターに最も多くのケースが含まれています。
モデルのノードの名前を変更するには
変更 シェーディング変数 に 地域, 、設定と 状態 に 太平洋します。
グラフで最も色の濃いノードを強調表示させます。
このクラスターを右クリックして クラスターの名前を変更します。
名前を入力しますPacific Cluster します。
値を変更 シェーディング変数 に 母集団します。
更新されたグラフで、最も色の濃いクラスター (最も大きなクラスター) を見つけます。 色の濃さからはどのクラスターが最も大きいか判断できない場合は、各クラスターの上にマウス ポインターを置いてツールヒントを確認し、最も多くのケースが含まれているクラスターを選択します。
このクラスターを右クリックして クラスター名の変更します。 新しい名前を入力 Largest Clusterします。
クラスターを表すノードからドリルスルーして、各クラスター内のケースの詳細を表示することができます。 たとえば、顧客に電子メールを送信するなど、分析の結果に対して操作を実行する場合に便利です。 構造には含まれているがモデルでは使用されていない、ケースのその他の属性を参照することもできます (Region や IncomeGroup など)。 マイニング モデルからドリルスルーする基になるケースの詳細については、次を参照してください。 ドリルスルー クエリ #40; データ マイニング )します。
クラスター ダイアグラムから詳細情報にドリルスルーするには
右クリック Pacific Cluster, [ ドリル スルー, 、し、[ モデルおよび構造列します。
ドリル スルー ] ダイアログ ボックスが表示されます。 モデルで使用されていないが、照会するために使用できる列が付いている 構造します。
このクラスターに含まれている顧客はほとんどが太平洋地域の顧客で、その他の地域の顧客はごくわずかであることがわかります。
入れ子になった列 v Assoc Seq Line Items のプラス記号をクリックして、特定の顧客注文のアイテムのシーケンスを表示します。
閉じる、 ドリル スルー ] ダイアログ ボックス。
注意
再生 ] ボタンをクリックすると、データのクエリを再実行することができます。 ただし、クエリの再実行されなければは変わりませんが表示されたら、データ モデルが動的に更新されたバック グラウンドで他のプロセスによってです。
トップに戻る
[クラスターのプロファイル] タブ
クラスターのプロファイル タブには、各クラスターに含まれるシーケンスが表示されます。 右側に個々 の列に、クラスターが一覧表示、 状態 列です。
ビューアーでは、 モデル 行には、クラスター内の項目の全体的な分布を記述、および Model.samples の行には、アイテムのシーケンスが含まれています。 各行の各セルにカラー シーケンスの Model.samples 行は、クラスター内のランダムに選択したユーザーの動作を表します。
シーケンス ヒストグラムでは、各製品モデルがそれぞれ異なる色で示されます。 マイニング凡例は、色分けと製品モデル名の両方を使用して製品のシーケンスを表します。 クラスターのモデルにその他の列 (Region や Income Group など) を追加した場合は、各列に対応する追加の行がビューアーに含まれます。それらの行には、各クラスター内のそれらの値の分布が表示されます。
クラスターで最も一般的なシーケンスを表示するには
右クリックし、 モデル 、クラスターの列の行 Largest Cluster, を選択して 凡例を表示するです。
色 列には、シーケンスにあるアイテムの頻度を示します。 色付きのバーが含まれています。 各アイテムがそれぞれ異なる色で表されます。 意味 列がそれぞれの色に対する製品モデル名を一覧表示します。 配布 列には、シーケンス内でこの項目が含まれているケースの割合。
閉じる、 マイニング凡例します。
右クリックし、 Model.samples 、見出しと列の行 母集団、 選択 凡例を表示するです。
全般的なモデル内のシーケンスの一覧をスキャンしてします。
マイニング凡例では最も一般的なシーケンスが最初に表示されるため、多くのシーケンスで Mountain Tire Tube が最初のアイテムになっていることがわかります。 これは、Mountain Tire Tube を最初に買い物かごに入れる顧客が多いことを示しています。
クラスター ビューアーからケースにドリルスルーするには
下へスクロール属性] ペインで行のデータが表示されるまで、 地域 属性です。
行のヒストグラムと、モデル内の各クラスターのヒストグラムを含んでいる 母集団, 、モデルで使用されるケースのセット全体を意味します。 ヒストグラムとは、さまざまな色を含むバーで、それぞれの色が属性を表し、色の付いた部分のサイズがその色の属性を持つケースの割合を表します。
名前を変更したクラスターのヒストグラムを比較 Pacific Cluster と Largest Clusterします。 各クラスターはそれぞれ異なる列に表示されます。
どちらも単色に見えますが、同じ色ではありません。
地域 行で、カラー ヒストグラムの上にマウスを置く Largest Clusterします。
各地域のケースの実際の割合を示す値がツールヒントに表示されます。
カラー ヒストグラムを右クリックし、 地域 行の Pacific Cluster, [ ドリル スルー, 、し、[ モデル列のみします。
スクロール バーを動かして、このクラスターのすべての顧客を調べます。
詳細情報にドリルスルーした結果からは、クラスターに含まれている注文のほとんどが太平洋地域からの注文であっても、北米地域やヨーロッパ地域からの注文もわずかに含まれていることがわかります。
閉じる、 ドリル スルー ] ダイアログ ボックス。
トップに戻る
[クラスターの特性] タブ
クラスターの特性 ] タブを選択したクラスターの属性の値の重要性を視覚的に表現するバーを表示することによってクラスター内の状態間の遷移をまとめたものです。 変数 列は、選択したクラスターや母集団重要見つかったするモデルを示して: 特定の値またはと呼ばれる値の間のリレーションシップのいずれか 遷移します。 値 列値または遷移の詳細については、および 確率 列は、その属性または遷移の重要度を視覚的に表示します。
クラスターの重要な属性を表示するには
- クラスター ドロップダウン リストで、 Pacific Clusterします。
名前を変更したクラスターの特性を表示する更新プログラムの一覧 **Pacific Cluster**します。 最も重要な特性は、このクラスターで **地域**します。
マウスの行の色付きのバー ポインターを置く 地域します。
値が Pacific である確率が非常に高いことがわかります。 これらの値を解釈する方法の詳細については、次を参照してください。 Microsoft シーケンス クラスタ リング アルゴリズム テクニカル リファレンスします。
最初の遷移行が見つかるまでクラスターの特性の一覧を調べていきます。
遷移行には、遷移のテキストが含まれています。 で、 変数 列、および連続属性の値の組み合わせ、 値 列です。 [Start] や missing がシーケンスに含まれる場合もあります。
たとえば、遷移の値が "[Start] -> Road Tire Tube" だった場合は、 そのクラスターの顧客がよく Road Tire Tube を最初に買い物かごに入れているということになります。 これは、その製品が顧客によって最初に探される人気のアイテムであることを示している場合もあれば、その製品がその購入サイトで見つけやすいということを示しているだけの場合もあります。
ない最初の遷移が見つかるまで一覧をスクロールして [開始] または 見つからない にします。
たとえば、遷移を検索する Touring Tire, Touring Tire Tubeします。 そのクラスターの顧客がこれらのアイテムをよくこの順序で一緒に購入していることになります。
この遷移の色付きのバーの上にマウス ポインターを置きます。
この遷移の確率がパーセントで表示されます。
クラスター ドロップダウン リストで、 **母集団 (すべて)**します。
属性の一覧が更新されて、モデルの作成に使用されたすべての注文の特性が表示されます。 クラスター間で区別するための最も重要な特性は、このマイニング モデルに **地域**, の値を持つ **北米**します。
以上の作業から、2 つのことがわかりました。 1 つは、意味のある数の組み合わせを得るためには大量のデータが必要であるということです。 たとえば、最も高い確率を使用して、シーケンスが含まれる可能性が、 [開始] または Missing 状態です。
2 つ目は、クラスタ リングに大きな影響の属性があること 地域, が困難なシーケンスのグループを表示します。 したがって、地域や収入の列を含まない、シーケンスのみを使用する別のモデルを作成することにします。
トップに戻る
[クラスターの識別] タブ
クラスターの識別 タブでは、どの属性が別のクラスターから、特定のクラスターを区別する、2 つのクラスターを比較することができます。 タブには、4 つの列が含まれています: 変数, 、値, 、クラスター 1, 、および Cluster 2します。 任意のクラスターとして使用することができます クラスター 1 と Cluster 2します。
変数 列は、列名または列名と単語の組み合わせを指定できる属性の名前を通知 遷移します。 値 列に、属性または遷移の正確な値が表示されます。 列の色付きのバー クラスター 1 と Cluster 2 を比較するクラスター内の属性の強さを示します。 バーが長いほど、その属性を持つケースがクラスターに含まれる可能性が高くなります。
[クラスターの識別] タブを使用して 2 つのクラスターを比較するには
- クラスターの識別 ] タブの クラスター 1, [ Pacific Clusterします。
既定では、選択されたを **Cluster 2** 変更 **補数の太平洋標準 * * * クラスター**します。
最も重要な属性を区別する **Pacific Cluster** 領域は、その他のすべてのケースからです。 地域がクラスター化のための属性として強力すぎるために、他の属性がわかりにくくなっています。 この影響を回避するために、いくつかの小さなクラスターを互いに比較してみます。 そうすれば、属性の一覧が変更されて、モデル間の遷移がより多く含まれるようになる可能性があります。
遷移行を見つけて、色付きのバーの上にマウス ポインターを置きます。
内の項目、 値 列は、状態と遷移の両方を含めることができます。 各アイテムの色は識別スコアを表します。 さまざまなスコアの意味の詳細については、次を参照してください。 マイニング モデル コンテンツ シーケンス クラスター モデルと #40 です。Analysis Services - データ マイニング )します。
トップに戻る
状態遷移] タブ
状態遷移 ] タブで、クラスターを選択し、その状態の遷移目を通すことができます。 選択した場合 母集団 (すべて) の図は、クラスターのドロップダウン リストからマイニング モデル全体の状態の分布を示しています。
グラフの各ノードは、分析しようとしているシーケンスの状態または使用可能な値を表します。 ノードの背景色は、その状態の頻度を表します。 一部の状態を結ぶ線は、状態間の遷移を表します。 スライダーを上下に動かして、遷移の確率のしきい値を変更することもできます。 一部のノードに関連付けられている数値は、その状態の確率を表します。
[状態遷移] タブで関係を調査するには
- 状態遷移 [マイニング モデル ビューアーのタブ Pacific Cluster クラスターの一覧からです。 いることを確認、 線のラベルを表示する オプションを選択します。
グラフが更新されて、このクラスターで最も一般的な遷移が表示されます。
別のノードと線で結ばれている任意のノードをクリックします。
グラフが更新されて、関連するノードが強調表示されます。 線の横の数値はその遷移の確率を表します。
スライダーを最大 すべてのリンク, をグラフに含まれる遷移の数を増やします。
選択 母集団 (すべて) から クラスターします。
別のクラスターを読み込むとグラフが既定の表示設定にリセットされるため、スライダー コントロールが中央の位置に戻ります。
対象となるグラフの最も色の濃いノードをクリックして sport-100します。
この製品を他の製品と結ぶ線はありません。
スライダーを 1 段階上に動かして、グラフに含まれる遷移の数を増やします。 一番に入らない すべてのリンク まだです。
グラフが更新されていくつかの遷移が追加されますが、Sport-100 モデルを含む遷移はありません。
スライダーを一番制御移動 すべてのリンクします。 まだ選択されていない場合は、Sport-100 ノードをクリックします。
グラフが更新されて、Sport-100 という製品を含む多数の遷移が表示されます。 ノードを結ぶ線の矢印の向きは、Sport-100 がペアの 1 つ目のアイテムとして選択されたか 2 つ目のアイテムとして選択されたかを表します。
Touring Tire のノードをクリックし、スライダー コントロールを中央の位置まで戻します。
最初は、Touring Tire を他の製品と結ぶ遷移の線が多数ありましたが、確率のしきい値を上げると、確率の低い遷移がグラフから取り除かれて、"Touring Tire > Touring Tire Tube" という遷移のみになります。 この遷移は、顧客が Touring Tire を買い物かごに入れた場合、その次に Touring Tire Tube をかごに入れる確率が高いことを示しています。
トップに戻る
汎用コンテンツ ツリー ビューアー
このビューアーは、アルゴリズムやモデルの種類に関係なく、すべてのモデルで使用できます。 MicrosoftGeneric コンテンツ ツリー ビューアー から利用できる、 ビューアー ボックスの一覧です。
コンテンツ ツリーは、マイニング モデルを一連のノードで表したものです。各ノードは、トレーニング データに関する学習済みの知識を表します。 ノードには、いくつかの属性が共通するパターン、一連のルール、クラスター、または日付範囲の定義を含めることができます。 ノードの正確な内容はアルゴリズムや予測可能な属性に応じて変わりますが、内容の全体的な表示は同じです。
各ノードを展開して、より詳細なレベルで表示したり、任意のノードの内容をクリップボードにコピーしたりできます。 詳細については、「Microsoft 汎用コンテンツ ツリー ビューアーを使用したモデルの参照」をご覧ください。
汎用コンテンツ ツリー ビューアーを使用してシーケンス クラスター モデルの詳細を表示するには
マイニング モデル ビューアー ] タブをクリックして、 ビューアー 一覧 Microsoft 汎用コンテンツ ツリー ビューアーします。
ノードのキャプション ] ウィンドウで、をクリックして **Pacific Cluster (1)**します。
このノードの名前には、クラスターに割り当てた表示名と、基になるノード ID の両方が含まれています。 ノード ID を使用してモデルの詳細にドリル ダウンできます。
名前付き最初の子ノードを展開 クラスター 1 のレベルをシーケンス処理します。
クラスターのシーケンス レベル ノードには、そのクラスターに含まれる状態と遷移の詳細が含まれています。 これらの詳細 (NODE_DISTRIBUTION 列に表示されます) を使用して、各クラスターまたはモデル全体のシーケンスと状態を調査することができます。
ノードをさらに展開して、HTML ビューアー ペインに詳細を表示します。
マイニング モデルの内容およびビューアーで詳細情報を使用する方法の詳細については、次を参照してください シーケンス クラスター モデルと #40; のマイニング モデル コンテンツ。Analysis Services - データ マイニング )します。
トップに戻る
このレッスンの次の作業
関連するシーケンス クラスタ リング モデル #40; 中級者向けデータ マイニング チュートリアル ) を作成します。