このトピックでは、Microsoft クラスタリング アルゴリズムを使用するモデルに固有のマイニング モデル コンテンツについて説明します。 すべてのモデルの種類のマイニング モデル コンテンツの一般的な説明については、「 マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
クラスタリング モデルの構造について
クラスタリング モデルには単純な構造があります。 各モデルには、モデルとそのメタデータを表す単一の親ノードがあり、各親ノードにはクラスターのフラット リストがあります (NODE_TYPE = 5)。 この組織を次の図に示します。
各子ノードは 1 つのクラスターを表し、そのクラスター内のケースの属性に関する詳細な統計情報が含まれています。 これには、クラスター内のケースの数と、クラスターを他のクラスターと区別する値の分布が含まれます。
注
クラスターの数または説明を取得するためにノードを反復処理する必要はありません。モデルの親ノードもカウントされ、クラスターが一覧表示されます。
親ノードには、すべてのトレーニング ケースの実際の分布を記述する有用な統計が含まれています。 これらの統計は、入れ子になったテーブル列 (NODE_DISTRIBUTION) にあります。 たとえば、次の表は、基本的なデータ マイニング チュートリアルで作成するクラスタリング モデル (TM_Clustering) の顧客の人口統計の分布を示す、NODE_DISTRIBUTION テーブルの複数の行を示しています。
| 属性名 | ATRIBUTE_VALUE | サポート | 確率 | 変異 | 値の型 |
|---|---|---|---|---|---|
| 年齢 | 行方不明 | 0 | 0 | 0 | 1 (不足) |
| 年齢 | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (連続) |
| ジェンダー | 行方不明 | 0 | 0 | 0 | 1 (不足) |
| ジェンダー | F | 6350 | 0.490764355823479 | 0 | 4 (離散) |
| ジェンダー | エム | 6589 | 0.509235644176521 | 0 | 4 (離散) |
これらの結果から、モデルの構築に使用された 12939 例、男性と女性の比率が約 50 から 50、平均年齢が 44 であったことがわかります。 説明的な統計情報は、報告される属性が、年齢などの連続する数値データ型か、性別などの不連続の値型であるかによって異なります。 統計メジャーの 平均値 と 分散 は連続データ型に対して計算されますが、 確率 と サポート は不連続データ型に対して計算されます。
注
分散は、クラスターの合計分散を表します。 分散の値が小さい場合は、列のほとんどの値が平均にかなり近かったことを示します。 標準偏差を取得するには、分散の平方根を計算します。
各属性には、その属性のデータがないケースの数を示す Missing 値型があることに注意してください。 不足しているデータは重要であり、データ型に応じてさまざまな方法で計算に影響します。 詳細については、「 欠損値 (Analysis Services - データ マイニング)」を参照してください。
クラスタリング モデルのモデル コンテンツ
このセクションでは、クラスタリング モデルに関連するマイニング モデル コンテンツ内の列についてのみ、詳細と例を示します。
MODEL_CATALOGやMODEL_NAMEなど、スキーマ行セットの汎用列の詳細については、「 マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
モデルカタログ
モデルが格納されているデータベースの名前。
MODEL_NAME
モデルの名前。
属性名
クラスタリング モデルでは、モードに予測可能な属性がないため、常に空白になります。
ノード名
常にNODE_UNIQUE_NAMEと同じです。
NODE_UNIQUE_NAME
モデル内のノードの一意識別子。 この値は変更できません。
NODE_TYPE
クラスタリング モデルでは、次のノードの種類が出力されます。
| ノード ID と名前 | 説明 |
|---|---|
| 1 (モデル) | モデルのルート ノード。 |
| 5 (クラスター) | クラスター内のケースの数、クラスター内のケースの特性、およびクラスター内の値を記述する統計が含まれます。 |
ノードキャプション
表示目的のフレンドリ名。 モデルを作成すると、NODE_UNIQUE_NAMEの値がキャプションとして自動的に使用されます。 ただし、NODE_CAPTIONの値を変更して、プログラムまたはビューアーを使用して、クラスターの表示名を更新できます。
注
モデルを再処理すると、すべての名前の変更が新しい値によって上書きされます。 モデル内に名前を保持したり、異なるバージョンのモデル間でクラスター メンバーシップの変更を追跡したりすることはできません。
子供の基数
ノードに含まれる子の数の見積もり。
親ノード モデル内のクラスターの数を示します。
クラスター ノード 常に 0。
親ユニーク名
ノードの親の一意の名前。
親ノード 常に NULL
クラスター ノード 通常は 000 です。
ノードの説明
ノードの説明。
親ノード は常に (すべて)。
クラスター ノード クラスターを他のクラスターと区別するプライマリ属性のコンマ区切りの一覧。
NODE_RULE
クラスタリング モデルには使用されません。
限界規則
クラスタリング モデルには使用されません。
NODE_PROBABILITY
このノードに関連付けられている確率。
親ノード 常に 1。
クラスター ノード 確率は属性の複合確率を表し、クラスタリング モデルの作成に使用されるアルゴリズムに応じていくつかの調整が行われます。
周辺確率
親ノードからノードに到達する確率。 クラスタリング モデルでは、限界確率は常にノード確率と同じです。
ノード配分
ノードの確率ヒストグラムを含むテーブル。
親ノード このトピックの概要を参照してください。
クラスター ノード このクラスターに含まれるケースの属性と値の分布を表します。
NODE_SUPPORT
このノードをサポートするケースの数。
親ノード モデル全体のトレーニング ケースの数を示します。
クラスター ノード クラスターのサイズをさまざまなケースとして示します。
手記 モデルで K-Means クラスタリングを使用する場合、各ケースは 1 つのクラスターにのみ属できます。 ただし、モデルが EM クラスタリングを使用している場合、各ケースは異なるクラスターに属することができ、ケースには、それが属するクラスターごとに重み付けされた距離が割り当てられます。 したがって、EM モデルの場合、個々のクラスターのサポートの合計は、モデル全体のサポートよりも大きくなります。
MSOLAP_MODEL_COLUMN
クラスタリング モデルには使用されません。
MSOLAP_NODE_SCORE
ノードに関連付けられたスコアを表示します。
親ノード クラスタリング モデルのベイジアン情報抽出条件 (BIC) スコア。
クラスター ノード 常に 0。
MSOLAP_NODE_SHORT_CAPTION
表示目的で使用されるラベル。 このキャプションは変更できません。
親ノード モデルの種類: クラスター モデル
クラスター ノード クラスターの名前。 例: クラスター 1。
注釈
Analysis Services には、クラスタリング モデルを作成するための複数の方法が用意されています。 使用しているモデルの作成に使用されたメソッドがわからない場合は、ADOMD クライアントまたは AMO を使用するか、データ マイニング スキーマ行セットに対してクエリを実行して、プログラムでモデル メタデータを取得できます。 詳細については、「 マイニング モデルの作成に使用されるパラメーターのクエリ」を参照してください。
注
使用するクラスタリング方法やパラメーターに関係なく、モデルの構造と内容は同じままです。
こちらもご覧ください
マイニング モデル コンテンツ (Analysis Services - データ マイニング)
データ マイニング モデル ビューアー
Microsoft クラスタリング アルゴリズム
データ マイニング クエリ