シーケンス クラスタ モデルの検証 (中級者向けデータ マイニング チュートリアル)
前の作業では Sequence Clustering with Region モデルを作成しました。次は、データ マイニング デザイナの [マイニング モデル ビューア] タブを開き、Microsoft シーケンス クラスタ ビューアを使用してこのモデルを検証します。Microsoft シーケンス クラスタ ビューアには、[クラスタ ダイアグラム]、[クラスタのプロファイル]、[クラスタの特性]、[クラスタの識別]、[状態遷移] という 5 つのタブがあります。このビューアの使用法の詳細については、「Microsoft シーケンス クラスタ ビューアを使用したマイニング モデルの表示」を参照してください。
[クラスタ ダイアグラム] タブ
[クラスタのプロファイル] タブ
[クラスタの特性] タブ
[クラスタの識別] タブ
[状態遷移] タブ
汎用コンテンツ ツリー ビューア
[クラスタ ダイアグラム] タブ
[クラスタ ダイアグラム] タブには、アルゴリズムによりデータベースから検出されたクラスタがグラフィカルに表示されます。ダイアグラムのレイアウトは、類似するクラスタを緊密にグループ化したクラスタのリレーションシップを表します。既定では、各ノードの色の濃さはクラスタに存在するケースの密度を表し、ノード色が濃くなるほど多数のケースが存在することになります。ノードの色の濃さが各クラスタ内の属性や状態のサポートを表すように、設定を変更することもできます。
目的のクラスタを簡単に識別したり操作したりできるようにクラスタの名前を変更することもできます。このチュートリアルでは、太平洋地域の顧客の割合が最も高いクラスタと全体のケースの数が最も多いクラスタの名前を変更します。
注意 |
|---|
データとモデル パラメータによっては、モデルを再処理したときに、特定のクラスタに割り当てられたケースが変更されることがあります。また、クラスタの名前を変更した場合、それらの名前は、マイニング モデルを再処理すると失われます。 |
クラスタを強調表示するために使用される属性を変更するには
[シェーディング変数] ボックスの一覧で、[Model] を選択します。
[状態] ボックスの一覧で、[Cycling Cap] を選択します。
ダイアグラムが更新されて、選択した製品の各クラスタにおける集中度が表示されます。最も色の濃いクラスタに、サイクリング キャップが最も高い密度で含まれます。シェーディング変数は、任意の入力列の任意の状態を使用するように変更できます。
[シェーディング変数] ボックスの一覧で、[母集団] を選択します。
シェーディング変数を母集団に変更すると、ダイアグラムが更新されて、クラスタがサイズで比較されるようになります。最も色の濃いクラスタに最も多くのケースが含まれています。
モデルのノードの名前を変更するには
[シェーディング変数] を [Region] に変更し、[状態] を [Pacific] に設定します。
グラフで最も色の濃いノードを強調表示させます。
そのクラスタを右クリックして、[クラスタ名の変更] をクリックします。
名前として「Pacific Cluster」と入力します。
[シェーディング変数] の値を [母集団] に変更します。
更新されたグラフで、最も色の濃いクラスタ (最も大きなクラスタ) を見つけます。色の濃さからはどのクラスタが最も大きいか判断できない場合は、各クラスタの上にマウス ポインタを置いてツールヒントを確認し、最も多くのケースが含まれているクラスタを選択します。
そのクラスタを右クリックして、[クラスタ名の変更] をクリックします。新しい名前として「Largest Cluster」と入力します。
クラスタを表すノードからドリルスルーして、各クラスタ内のケースの詳細を表示することができます。たとえば、顧客に電子メールを送信するなど、分析の結果に対して操作を実行する場合に便利です。構造には含まれているがモデルでは使用されていない、ケースのその他の属性を参照することもできます (Region や IncomeGroup など)。マイニング モデルから基になるケースへのドリルスルーの詳細については、「マイニング モデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データ マイニング)」を参照してください。
クラスタ ダイアグラムから詳細情報にドリルスルーするには
Pacific Cluster を右クリックし、[ドリルスルー] をポイントして [モデル列および構造列] をクリックします。
[ドリルスルー] ダイアログ ボックスが開きます。モデルに使用されていなくてもクエリを実行することはできる列には、名前の先頭に "Structure" が付いています。
このクラスタに含まれている顧客はほとんどが太平洋地域の顧客で、その他の地域の顧客はごくわずかであることがわかります。
入れ子になった列 v Assoc Seq Line Items のプラス記号をクリックして、特定の顧客注文のアイテムのシーケンスを表示します。
[ドリルスルー] ダイアログ ボックスを閉じます。
注意[再生] ボタンを使用すると、データのクエリを再実行できます。ただし、クエリを再実行しても、バックグラウンドで他のプロセスによってモデルが動的に更新されていない限り、表示されるデータは変わりません。
トップに戻る
[クラスタのプロファイル] タブ
[クラスタのプロファイル] タブには、各クラスタ内のシーケンスが表示されます。[状態] 列の右側の各列には、クラスタが一覧表示されます。
このビューアの Model 行は、クラスタ内におけるアイテムの全体的な分布を表しています。Model.samples 行は、アイテムのシーケンスを表しています。Model.samples 行の各セルに表示されるカラー シーケンスは、そのクラスタでランダムに選択されたユーザーの動向を表します。
シーケンス ヒストグラムでは、各製品モデルがそれぞれ異なる色で示されます。マイニング凡例は、色分けと製品モデル名の両方を使用して製品のシーケンスを表します。クラスタのモデルにその他の列 (Region や Income Group など) を追加した場合は、各列に対応する追加の行がビューアに含まれます。それらの行には、各クラスタ内のそれらの値の分布が表示されます。
クラスタで最も一般的なシーケンスを表示するには
クラスタ Largest Cluster の列の [Model] 行を右クリックし、[凡例の表示] をクリックします。
[色] 列には、シーケンス内でアイテムが見つかった頻度を表す色付きのバーが含まれます。各アイテムがそれぞれ異なる色で表されます。[意味] 列には、それぞれの色に対する製品モデル名が表示されます。[ディストリビューション] 列には、そのアイテムがシーケンスに含まれていたケースの割合が表示されます。
[マイニング凡例] を閉じます。
[母集団] という見出しが付いた列の [Model.samples] 行を右クリックし、[凡例の表示] をクリックします。
モデル全体のシーケンスの一覧を確認します。
マイニング凡例では最も一般的なシーケンスが最初に表示されるため、多くのシーケンスで Mountain Tire Tube が最初のアイテムになっていることがわかります。これは、Mountain Tire Tube を最初に買い物かごに入れる顧客が多いことを示しています。
クラスタ ビューアからケースにドリルスルーするには
Region 属性の行が見つかるまで [属性] ペインをスクロールします。
この行には、モデル内の各クラスタのヒストグラムと、モデルで使用されているケースのセット全体を表す [母集団] のヒストグラムが含まれています。ヒストグラムとは、さまざまな色を含むバーで、それぞれの色が属性を表し、色の付いた部分のサイズがその色の属性を持つケースの割合を表します。
名前を Pacific Cluster に変更したクラスタと Largest Cluster に変更したクラスタのヒストグラムを比較します。各クラスタはそれぞれ異なる列に表示されます。
どちらも単色に見えますが、同じ色ではありません。
Region 行で、Largest Cluster のカラー ヒストグラムの上にマウス ポインタを置きます。
各地域のケースの実際の割合を示す値がツールヒントに表示されます。
Pacific Cluster の Region 行のカラー ヒストグラムを右クリックし、[ドリルスルー] をポイントして [モデル列のみ] をクリックします。
スクロール バーを動かして、このクラスタのすべての顧客を調べます。
詳細情報にドリルスルーした結果からも、クラスタに含まれている注文のほとんどが太平洋地域からの注文だが北米地域や太平洋地域からの注文もわずかに含まれていることがわかります。
[ドリルスルー] ダイアログ ボックスを閉じます。
トップに戻る
[クラスタの特性] タブ
[クラスタの特性] タブでは、選択されたクラスタの属性値の重要度を視覚的に表現するバーを表示することで、クラスタにおける状態間の遷移の概要が示されます。[変数] 列からは、選択したクラスタや母集団で何がモデルによって重要として検出されたのかがわかります (特定の値または値の間の関係 (遷移))。[値] 列には、値または遷移の詳細が表示されます。[確率] 列には、その属性または遷移の重要度が視覚的に表示されます。
クラスタの重要な属性を表示するには
[クラスタ] ボックスの一覧で、Pacific Cluster を選択します。
一覧が更新されて、名前を Pacific Cluster に変更したクラスタの特性が表示されます。このクラスタの最も重要な特性は Region です。
Region の行の色付きのバーの上にマウス ポインタを置きます。
値が Pacific である確率が非常に高いことがわかります。これらの値の意味の詳細については、「Microsoft シーケンス クラスタリング アルゴリズム テクニカル リファレンス」を参照してください。
最初の遷移行が見つかるまでクラスタの特性の一覧を調べていきます。
遷移行では、[変数] 列には "Transition" というテキストが、[値] 列には何らかの連続する属性値の組み合わせが含まれます。[Start] や missing がシーケンスに含まれる場合もあります。
たとえば、遷移の値が "[Start] -> Road Tire Tube" だった場合は、そのクラスタの顧客がよく Road Tire Tube を最初に買い物かごに入れているということになります。これは、その製品が顧客によって最初に探される人気のアイテムであることを示している場合もあれば、その製品がその購入サイトで見つけやすいということを示しているだけの場合もあります。
[Start] も missing も含まれていない最初の遷移が見つかるまで一覧をスクロールします。
たとえば、"Touring Tire, Touring Tire Tube" という遷移が見つかった場合は、そのクラスタの顧客がこれらのアイテムをよくこの順序で一緒に購入していることになります。
この遷移の色付きのバーの上にマウス ポインタを置きます。
この遷移の確率がパーセントで表示されます。
[クラスタ] ボックスの一覧で、[母集団 (すべて)] を選択します。
属性の一覧が更新されて、モデルの作成に使用されたすべての注文の特性が表示されます。このマイニング モデルでは、クラスタを区別する最も重要な特性は Region で、値は North America です。
以上の作業から、2 つのことがわかりました。1 つは、意味のある数の組み合わせを得るためには大量のデータが必要であるということです。たとえば、確率の高いシーケンスには多くの場合、[Start] や Missing の状態が含まれています。
もう 1 つは、Region の属性に対するクラスタ化の効果が大きいために、シーケンスのグループを見つけにくくなっているということです。したがって、地域や収入の列を含まない、シーケンスのみを使用する別のモデルを作成することにします。
トップに戻る
[クラスタの識別] タブ
[クラスタの識別] タブでは、2 つのクラスタを比較して、特定のクラスタを別のクラスタと区別している属性を調べることができます。このタブには、[変数]、[値]、[クラスタ 1]、[クラスタ 2] の 4 つの列があります。[クラスタ 1] と [クラスタ 2] に対しては任意のクラスタを選択できます。
[変数] 列には属性の名前が表示されます。これは、列の名前である場合もあれば、列の名前と "transition" という語の組み合わせである場合もあります。[値] 列には、属性または遷移の正確な値が表示されます。[クラスタ 1] と [クラスタ 2] の列の色付きのバーは、比較しているクラスタにおけるその属性の強度を表します。バーが長いほど、その属性を持つケースがクラスタに含まれる可能性が高くなります。
[クラスタの識別] タブを使用して 2 つのクラスタを比較するには
[クラスタの識別] タブで、[クラスタ 1] に対して Pacific Cluster を選択します。
[クラスタ 2] の選択内容が既定で [次を除く全クラスタ PacificCluster] に変更されます。
Pacific Cluster を他のすべてのケースから区別する最も重要な属性は地域です。地域がクラスタ化のための属性として強力すぎるために、他の属性がわかりにくくなっています。この影響を回避するために、いくつかの小さなクラスタを互いに比較してみます。そうすれば、属性の一覧が変更されて、モデル間の遷移がより多く含まれるようになる可能性があります。
遷移行を見つけて、色付きのバーの上にマウス ポインタを置きます。
[値] 列内のアイテムには、状態と遷移の両方が含まれている可能性があります。各アイテムの色は識別スコアを表します。さまざまなスコアの意味については、「シーケンス クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
トップに戻る
[状態遷移] タブ
[状態遷移] タブでは、クラスタを選択し、その状態の遷移を表示できます。クラスタのドロップダウン リストから [母集団 (すべて)] を選択すると、マイニング モデル全体の状態の分布がダイアグラムに表示されます。
グラフの各ノードは、分析しようとしているシーケンスの状態または使用可能な値を表します。ノードの背景色は、その状態の頻度を表します。一部の状態を結ぶ線は、状態間の遷移を表します。スライダを上下に動かして、遷移の確率のしきい値を変更することもできます。一部のノードに関連付けられている数値は、その状態の確率を表します。
[状態遷移] タブで関係を調査するには
マイニング モデル ビューアの [状態遷移] タブで、クラスタの一覧から Pacific Cluster を選択します。[線のラベルを表示する] オプションが選択されていることを確認します。
グラフが更新されて、このクラスタで最も一般的な遷移が表示されます。
別のノードと線で結ばれている任意のノードをクリックします。
グラフが更新されて、関連するノードが強調表示されます。線の横の数値はその遷移の確率を表します。
スライダを [すべてのリンク] まで動かして、グラフに含まれる遷移の数を増やします。
[クラスタ] から [母集団 (すべて)] を選択します。
別のクラスタを読み込むとグラフが既定の表示設定にリセットされるため、スライダ コントロールが中央の位置に戻ります。
グラフの最も色の濃いノード (Sport-100) をクリックします。
この製品を他の製品と結ぶ線はありません。
スライダを 1 段階上に動かして、グラフに含まれる遷移の数を増やします。まだ [すべてのリンク] までは動かさないでください。
グラフが更新されていくつかの遷移が追加されますが、Sport-100 モデルを含む遷移はありません。
スライダ コントロールを [すべてのリンク] まで動かします。まだ選択されていない場合は、Sport-100 ノードをクリックします。
グラフが更新されて、Sport-100 という製品を含む多数の遷移が表示されます。ノードを結ぶ線の矢印の向きは、Sport-100 がペアの 1 つ目のアイテムとして選択されたか 2 つ目のアイテムとして選択されたかを表します。
Touring Tire のノードをクリックし、スライダ コントロールを中央の位置まで戻します。
最初は、Touring Tire を他の製品と結ぶ遷移の線が多数ありましたが、確率のしきい値を上げると、確率の低い遷移がグラフから取り除かれて、"Touring Tire > Touring Tire Tube" という遷移のみになります。この遷移は、顧客が Touring Tire を買い物かごに入れた場合、その次に Touring Tire Tube をかごに入れる確率が高いことを示しています。
トップに戻る
汎用コンテンツ ツリー ビューア
このビューアは、アルゴリズムやモデルの種類に関係なく、すべてのモデルで使用できます。Microsoft汎用コンテンツ ツリー ビューアは、[ビューア] ボックスから起動できます。
コンテンツ ツリーは、マイニング モデルを一連のノードで表したものです。各ノードは、トレーニング データに関する学習済みの知識を表します。ノードには、いくつかの属性が共通するパターン、一連のルール、クラスタ、または日付範囲の定義を含めることができます。ノードの正確な内容はアルゴリズムや予測可能な属性に応じて変わりますが、内容の全体的な表示は同じです。
各ノードを展開して、より詳細なレベルで表示したり、任意のノードの内容をクリップボードにコピーしたりできます。詳細については、「Microsoft 汎用コンテンツ ツリー ビューアを使用したモデルの詳細の表示」を参照してください。
汎用コンテンツ ツリー ビューアを使用してシーケンス クラスタ モデルの詳細を表示するには
[マイニング モデル ビューア] タブの [ビューア] ボックスの一覧で、[Microsoft 汎用コンテンツ ツリー ビューア] を選択します。
[ノードのキャプション] ペインで Pacific Cluster (1) をクリックします。
このノードの名前には、クラスタに割り当てた表示名と、基になるノード ID の両方が含まれています。ノード ID を使用してモデルの詳細にドリル ダウンできます。
最初の子ノード ([クラスタ 1 のシーケンス レベル]) を展開します。
クラスタのシーケンス レベル ノードには、そのクラスタに含まれる状態と遷移の詳細が含まれています。これらの詳細 (NODE_DISTRIBUTION 列に表示されます) を使用して、各クラスタまたはモデル全体のシーケンスと状態を調査することができます。
ノードをさらに展開して、HTML ビューア ペインに詳細を表示します。
マイニング モデル コンテンツの詳細と、ビューアの詳細情報の使用方法については、「シーケンス クラスタ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
トップに戻る