Microsoft クラスタリングアルゴリズム

[アーティクル]
11/19/2013

Microsoft クラスタリングアルゴリズムは、Analysis Services によって提供される分割アルゴリズムです。このアルゴリズムは、反復的な手法を使用して、類似の特性を持つクラスターにデータセット内のケースをグループ化します。このグループ化は、データの探索、データの異常の特定、および予測の作成に役立ちます。

クラスタリングモデルでは、一般レベルの観察では論理的に推論できないデータセット内の関係が識別されます。たとえば、自転車で通勤している従業員は、一般的に勤め先から遠くないところに住んでいることは、だれでも明確に理解できます。しかし、このアルゴリズムでは、それほど明確でない自転車通勤者に関する他の特性を見つけることができます。次の図では、クラスター A は勤め先に車で通勤する従業員に関するデータを表し、クラスター B は勤め先に自転車で通勤する従業員に関するデータを表しています。

通勤者の傾向を示すクラスターパターン

クラスタリングアルゴリズムは、クラスタリングモデルを作成するために予測可能列を指定する必要がないという点において、Microsoft デシジョンツリーアルゴリズムなどの他のデータマイニングアルゴリズムと異なります。クラスタリングアルゴリズムでは、データに存在する関係と、アルゴリズムで識別されたクラスターからのみモデルをトレーニングします。

例

類似の人口統計情報を共有しており、Adventure Works 社から類似の製品を購入する人々のグループがあるとします。このような人々のグループが、データの 1 クラスターを表し、データベース内にいくつか存在します。クラスターを構成する列を観察することによって、データセットの各レコードが互いにどのように関係しているかを明確に理解できます。

アルゴリズムの動作

Microsoft クラスタリングアルゴリズムでは、まずデータセット内の関係が識別され、その関係に基づいて一連のクラスターが生成されます。次の図のように、アルゴリズムによってデータがどのようにグループ化されるかを視覚的に表すには、散布図が便利です。散布図にはデータセット内のすべてのケースが表され、各ケースはグラフ上にポイントで示されます。クラスターは、グラフ上のポイントをグループ化したもので、アルゴリズムによって識別された関係を示します。

データセットの各ケースを示す散布図

アルゴリズムはクラスターを定義した後、そのクラスターがポイントのグループをどの程度適切に表しているかを判断し、グループを再定義して、データをより適切に表すクラスターを作成します。このプロセスは、クラスターの再定義によってそれ以上結果を向上できなくなるまで繰り返されます。

クラスタリング技法を指定したり、クラスターの最大数を制限したり、クラスターの作成に必要なサポート量を変更したりして、アルゴリズムの動作をカスタマイズできます。詳細については、「Microsoft クラスタリングアルゴリズムテクニカルリファレンス」を参照してください。

クラスタリングモデルに必要なデータ

クラスタリングモデルのトレーニングに使用するデータを用意する際には、必要なデータ量やデータの使用方法など、このアルゴリズムにおける要件を把握しておいてください。

クラスタリングモデルの要件は次のとおりです。

1 つのキー列: それぞれのモデルには、各レコードを一意に識別する数値列またはテキスト列が 1 つ含まれている必要があります。複合キーは使用できません。
入力列 : 各モデルには、クラスターの作成に使用される値が含まれた入力列が 1 つ以上必要です。入力列はいくつあってもかまいませんが、各列内の値の数によっては、列を追加するとモデルのトレーニングにかかる時間が長くなる場合があります。
省略可能な予測可能列 : このアルゴリズムでモデルを作成するために予測可能列は必要ありません。しかし、ほぼすべてのデータ型の予測可能列を追加することができます。予測可能列の値は、クラスタリングモデルへの入力として扱うことも、予測のみに使用するよう指定することもできます。たとえば、地域や年齢などの人口統計に対してクラスタリングを実行することにより顧客の収入を予測する場合、収入を PredictOnly として指定し、地域や年齢など、その他すべての列を入力として追加します。

クラスタリングモデルでサポートされるコンテンツの種類とデータ型の詳細については、「Microsoft クラスタリングアルゴリズムテクニカルリファレンス」の「必要条件」を参照してください。

クラスタリングモデルの表示

モデルを参照するには、Microsoft クラスタービューアーを使用します。 Analysis Services でクラスタリングモデルを表示すると、クラスター間の相互関係がダイアグラムで示され、各クラスターの詳細なプロファイル、クラスターどうしを識別する属性の一覧、およびトレーニングデータセット全体の特性も提供されます。詳細については、「Microsoft クラスタービューアーを使用したモデルの参照」を参照してください。

さらに詳細を知るには、Microsoft 汎用コンテンツツリービューアーでモデルを参照してください。モデルに保存される内容には、各ノードのすべての値の分布や、各クラスターの確率などの情報が含まれます。詳細については、「クラスターモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

予測の作成

モデルのトレーニング後、結果がパターンのセットとして保存されます。これを参照したり、これを使用して予測を実行したりできます。

クエリを作成して、検出されたクラスターに新しいデータが合致するかどうかの予測を返したり、クラスターに関する説明的な統計情報を取得したりすることもできます。

データマイニングモデルに対するクエリの作成方法については、「データマイニングクエリ」を参照してください。クラスタリングモデルでクエリを使用する方法の例については、「クラスタリングモデルのクエリ例」を参照してください。

解説

Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成がサポートされています。
ドリルスルーがサポートされています。
OLAP マイニングモデルの使用およびデータマイニングディメンションの作成がサポートされています。

次の方法で共有

Microsoft クラスタリングアルゴリズム

例

アルゴリズムの動作

クラスタリングモデルに必要なデータ

クラスタリングモデルの表示

予測の作成

解説

関連項目

参照

概念

その他のリソース

次の方法で共有

Microsoft クラスタリング アルゴリズム

例

アルゴリズムの動作

クラスタリング モデルに必要なデータ

クラスタリング モデルの表示

予測の作成

解説

関連項目

参照

概念

その他のリソース

Microsoft クラスタリングアルゴリズム

クラスタリングモデルに必要なデータ

クラスタリングモデルの表示