Microsoft シーケンス クラスタリング アルゴリズムは、Microsoft SQL Server Analysis Services によって提供されるシーケンス分析アルゴリズムです。 このアルゴリズムを使用して、次のパスまたはシーケンスによってリンクできるイベントを含むデータ を探索できます。 このアルゴリズムは、同一のシーケンスをグループ化 (クラスタリング) することによって、最も一般的なシーケンスを検索します。 一般的な問題やビジネス シナリオに関する分析情報を提供するために、データ マイニングに使用できるシーケンスを含むデータの例を次に示します。
ユーザーが Web サイトを移動または参照するときに作成されるパスをクリックします。
ハード ディスクの障害やサーバーのデッドロックなど、インシデントの前のイベントを一覧表示するログ。
顧客がオンライン小売業者のショッピング カートに品目を追加する順序を記述するトランザクション レコード。
時間の経過に伴う顧客 (または患者) の対話に従って、サービスのキャンセルやその他の不適切な結果を予測するレコード。
このアルゴリズムは、Microsoft クラスタリング アルゴリズムと多くの点で似ています。 ただし、Microsoft シーケンス クラスタリング アルゴリズムは、類似の属性を含むケースのクラスターを検索する代わりに、シーケンス内に類似のパスを含むケースのクラスターを検索します。
例
Adventure Works Cycles Web サイトは、サイト ユーザーがアクセスするページと、ページがアクセスされる順序に関する情報を収集します。 会社はオンライン注文を提供するため、顧客はサイトにログインする必要があります。 これにより、各顧客プロファイルのクリック情報が会社に提供されます。 このデータに対して Microsoft シーケンス クラスタリング アルゴリズムを使用すると、類似のパターンまたはクリックシーケンスを持つ顧客のグループまたはクラスターを検索できます。 その後、これらのクラスターを使用して、ユーザーが Web サイトを移動する方法を分析し、特定の製品の販売に最も密接に関連するページを特定し、次にアクセスする可能性が最も高いページを予測できます。
アルゴリズムのしくみ
Microsoft シーケンス クラスタリング アルゴリズムは、クラスター化手法と Markov チェーン分析を組み合わせてクラスターとそのシーケンスを識別するハイブリッド アルゴリズムです。 Microsoft シーケンス クラスタリング アルゴリズムの特徴の 1 つは、シーケンス データを使用することです。 通常、このデータは、一連のイベントまたはデータセット内の状態間の遷移 (特定のユーザーに対する一連の製品購入や Web クリックなど) を表します。 このアルゴリズムは、すべての遷移確率を調べ、データセット内のすべての可能なシーケンス間の差 (距離) を測定して、クラスタリングの入力として最適なシーケンスを決定します。 アルゴリズムは、候補シーケンスのリストを作成した後、クラスタリングの EM メソッドの入力としてシーケンス情報を使用します。
実装の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズムテクニカル リファレンス」を参照してください。
シーケンス クラスタリング モデルに必要なデータ
シーケンス クラスタリング モデルのトレーニングに使用するデータを準備するときは、必要なデータの量やデータの使用方法など、特定のアルゴリズムの要件を理解する必要があります。
シーケンス クラスタリング モデルの要件は次のとおりです。
1 つのキー列 シーケンス クラスタリング モデルには、レコードを識別するキーが必要です。
シーケンス列 シーケンス データの場合、モデルには、シーケンス ID 列を含む入れ子になったテーブルが必要です。 シーケンス ID には、任意の並べ替え可能なデータ型を指定できます。 たとえば、列がシーケンス内のイベントを識別する限り、Web ページ識別子、整数、またはテキスト文字列を使用できます。 シーケンスごとに 1 つのシーケンス識別子のみが許可され、各モデルで許可されるシーケンスの種類は 1 つだけです。
オプションの非シーケンス属性 このアルゴリズムでは、シーケンス処理に関連しない他の属性の追加がサポートされています。 これらの属性には、入れ子になった列を含めることができます。
たとえば、Adventure Works Cycles Web サイトの前に示した例では、シーケンス クラスタリング モデルには、ケース テーブルとしての注文情報、非シーケンス属性としての各注文の特定の顧客に関する人口統計、および顧客がサイトを参照したシーケンスを含む入れ子になったテーブル、またはアイテムをショッピング カートにシーケンス情報として配置する場合があります。
シーケンス クラスタリング モデルでサポートされるコンテンツ タイプとデータ型の詳細については、「 Microsoft シーケンス クラスタリング アルゴリズムテクニカル リファレンス」の「要件」セクションを参照してください。
シーケンス クラスタリング モデルの表示
このアルゴリズムによって作成されるマイニング モデルには、データ内の最も一般的なシーケンスの説明が含まれています。 モデルを調べるには、 Microsoft シーケンス クラスター ビューアーを使用できます。 シーケンス クラスタリング モデルを表示すると、Analysis Services には複数の遷移を含むクラスターが表示されます。 関連する統計を表示することもできます。 詳細については、「 Microsoft シーケンス クラスター ビューアーを使用したモデルの参照」を参照してください。
詳細を知りたい場合は、 Microsoft 汎用コンテンツ ツリー ビューアーでモデルを参照できます。 モデルに格納されるコンテンツには、各ノード内のすべての値の分布、各クラスターの確率、遷移に関する詳細が含まれます。 詳細については、「 シーケンス クラスタリング モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
予測の作成
モデルのトレーニングが完了すると、結果は一連のパターンとして格納されます。 データ内の最も一般的なシーケンスの説明を使用して、新しいシーケンスの次のステップを予測できます。 ただし、アルゴリズムには他の列が含まれているため、結果のモデルを使用して、シーケンスされたデータとシーケンシャルではない入力の間のリレーションシップを識別できます。 たとえば、人口統計データをモデルに追加する場合は、特定の顧客グループに対して予測を行うことができます。 予測クエリは、可変数の予測を返すか、説明的な統計情報を返すようにカスタマイズできます。
データ マイニング モデルに対してクエリを作成する方法については、「 データ マイニング クエリ」を参照してください。 シーケンス クラスタリング モデルでクエリを使用する方法の例については、「 シーケンス クラスタリング モデルクエリの例」を参照してください。
注釈
マイニング モデルを作成するための予測モデル マークアップ言語 (PMML) の使用はサポートされていません。
ドリルスルーをサポートします。
OLAP マイニング モデルの使用とデータ マイニング ディメンションの作成をサポートします。
こちらもご覧ください
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
Microsoft シーケンス クラスタリング アルゴリズムテクニカル リファレンス
シーケンス クラスタリング モデルクエリの例
Microsoft シーケンス クラスター ビューアーを使用してモデルを参照する