「Microsoft シーケンスクラスターアルゴリズム」

[アーティクル]
10/31/2023

適用対象:SQL Server 2019 以前の Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

データマイニングは SQL Server 2017 Analysis Services で非推奨となり、SQL Server 2022 Analysis Services で停止されました。非推奨および停止された機能については、ドキュメントの更新は行われません。詳細については、「Analysis Services 下位互換性」を参照してください。

Microsoft シーケンスクラスタリングアルゴリズムは、シーケンス分析とクラスタリングを組み合わせた独自のアルゴリズムです。このアルゴリズムを使用すると、 シーケンスでリンク可能なイベントを含むデータを調べることができます。アルゴリズムは最も一般的なシーケンスを検索し、クラスタリングを実行して類似するシーケンスを検索します。次の例では、機械学習用にデータを取り込むことができるシーケンスの種類を示し、一般的な問題やビジネスシナリオの理解を深めます。

ユーザーによる Web サイト閲覧時に生成されるクリックストリームまたはクリックパス
ハードディスク障害やサーバーのデッドロックなどの事象に先立つイベントを示すログ
オンラインのショッピングカートで顧客が商品を買い物かごに追加する順序を示すトランザクションレコード
サービスのキャンセルやその他の好ましくない結果を予測するために顧客または患者の操作を記録したレコード

このアルゴリズムは、Microsoft クラスタリングアルゴリズムと多くの点で似ています。ただし、類似した属性を含むケースのクラスターを検索する代わりに、Microsoft シーケンスクラスタリングアルゴリズムは、シーケンス内に類似のパスを含むケースのクラスターを検索します。

例

Adventure Works Cycles Web サイトは、サイトユーザーがアクセスするページと、ページがアクセスされる順序に関する情報を収集します。顧客は、サイトにログインしてオンラインで注文することができます。これにより、各顧客プロファイルに対するクリック情報が得られます。このデータに対して Microsoft シーケンスクラスタリングアルゴリズムを使用すると、類似したパターンまたはクリックシーケンスを持つ顧客のグループ (クラスター) を検索できます。次に、これらのクラスターを使用して、顧客の Web サイト内での移動状況の分析、特定の製品の売上に最も密接に関連しているページの識別、次に閲覧される可能性が高いページの予測などが実行できます。

アルゴリズムの動作

Microsoft シーケンスクラスタリングアルゴリズムは、クラスターの手法と Markov チェーン分析を組み合わせてクラスターとそのシーケンスを識別するハイブリッドアルゴリズムです。 Microsoft シーケンスクラスタリングアルゴリズムの特徴の 1 つは、シーケンスデータを使用することです。このデータは通常、特定ユーザーによる一連の製品購入や Web でのクリックなど、データセット内の一連のイベントや状態間の遷移を表します。クラスタリング用の入力として使用するのに適したシーケンスを判断するために、アルゴリズムはすべての遷移の確率を調べ、データセット内の有効なすべてのシーケンス間の差異または距離を測定します。候補となるシーケンスの一覧がアルゴリズムによって作成された後、Expectation Maximization (EM) を使用してクラスタリング用の入力としてシーケンス情報を使用します。

実装の詳細については、「 Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス」を参照してください。

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルのトレーニングに使用するデータを用意する際には、必要なデータ量やデータの使用方法など、このアルゴリズムにおける要件を把握しておいてください。

シーケンスクラスターモデルの要件は次のとおりです。

1 つのキー列 シーケンスクラスターモデルでは、レコードを識別するキーが必要です。
シーケンス列 シーケンスデータの場合、モデルにはシーケンス ID 列を含む入れ子になったテーブルが必要です。シーケンス ID には、任意の並べ替え可能なデータ型を使用できます。たとえば、この列でシーケンス内のイベントを識別できる限り、Web ページ識別子、整数、またはテキスト文字列を使用できます。各シーケンスが持てるシーケンス ID は 1 つのみ、また、各モデルが持てるシーケンスの種類は 1 種類のみです。
省略可能な非シーケンス属性 このアルゴリズムでは、シーケンス化に無関係な他の属性を追加することができます。これらの属性には、入れ子になった列を含めることができます。

たとえば、前述の Adventure Works Cycles Web サイトの例では、シーケンスクラスタリングモデルには、ケーステーブルとしての注文情報、非シーケンス属性としての各注文の特定の顧客に関する人口統計、顧客がサイトを閲覧したシーケンスを含む入れ子になったテーブル、またはシーケンス情報としてショッピングカートにアイテムを配置するシーケンスが含まれる場合があります。

シーケンスクラスターモデルでサポートされるコンテンツの種類とデータ型の詳細については、「 Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス」の「必要条件」を参照してください。

シーケンスクラスターモデルの表示

このアルゴリズムが作成するマイニングモデルには、データ内の最も一般的なシーケンスの説明が含まれています。モデルを参照するには、 Microsoft シーケンスクラスタービューアーを使用します。シーケンスクラスタリングモデルを表示すると、SQL Server Analysis Services複数の遷移を含むクラスターが表示されます。関連する統計情報も表示できます。詳細については、「 Microsoft シーケンスクラスタービューアーを使用したモデルの参照」を参照してください。

さらに詳細を知るには、 Microsoft 汎用コンテンツツリービューアーでモデルを参照してください。モデルに保存される内容には、各ノードのすべての値の分布、各クラスターの確率、および遷移に関する詳細が含まれます。詳細については、「シーケンスクラスタリングモデルのマイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

予測の作成

モデルのトレーニング後、結果がパターンのセットとして保存されます。データ内の最も一般的なシーケンスの説明を使用して、新しいシーケンスの次に来る可能性の高いステップを予測できます。ただし、アルゴリズムには他の列が含まれるため、結果として得られるモデルを使用して、シーケンス化されたデータとシーケンシャルではない入力との間の関係を識別できます。たとえば、モデルに人口統計データを追加すると、特定の顧客グループに対する予測を実行できます。さまざまな数の予測を返したり、説明的な統計情報を返したりするように、予測クエリをカスタマイズできます。

データマイニングモデルに対するクエリの作成方法については、「データマイニングクエリ」を参照してください。シーケンスクラスターモデルでクエリを使用する方法の例については、「シーケンスクラスターモデルのクエリの例」を参照してください。

注釈

Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成はサポートされていません。
ドリルスルーがサポートされています。
OLAP マイニングモデルの使用およびデータマイニングディメンションの作成がサポートされています。

参照

データマイニングアルゴリズム (Analysis Services - データマイニング)
Microsoft シーケンスクラスタリングアルゴリズムテクニカルリファレンス
 Sequence Clustering Model Query Examples
Microsoft シーケンスクラスタービューアーを使用したモデルの参照

次の方法で共有

「Microsoft シーケンスクラスターアルゴリズム」

例

アルゴリズムの動作

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルの表示

予測の作成

注釈

参照

フィードバック

フィードバック

その他のリソース

次の方法で共有

「Microsoft シーケンス クラスター アルゴリズム」

例

アルゴリズムの動作

シーケンス クラスター モデルに必要なデータ

シーケンス クラスター モデルの表示

予測の作成

注釈

参照

フィードバック

フィードバック

その他のリソース

「Microsoft シーケンスクラスターアルゴリズム」

シーケンスクラスターモデルに必要なデータ

シーケンスクラスターモデルの表示