コンテンツクエリ (データマイニング)

[アーティクル]
07/30/2013

コンテンツクエリは、マイニングモデルの内部の統計および構造に関する情報を抽出するための手段です。コンテンツクエリを使用すると、ビューアーでは簡単に得られない詳細な情報がわかる場合があります。また、コンテンツクエリの結果を利用して、他の用途のためにプログラムで情報を抽出できます。

ここでは、コンテンツクエリを使用して取得できる情報の種類に関する一般的な情報と、コンテンツクエリの一般的な DMX 構文を紹介します。

基本的なコンテンツクエリ

構造およびケースデータに対するクエリ
モデルパターンに対するクエリ

使用例

アソシエーションモデルに対するコンテンツクエリ
デシジョンツリーモデルに対するコンテンツクエリ

クエリ結果の操作

基本的なコンテンツクエリ

コンテンツクエリは、予測クエリビルダーを使用しても作成できます。SQL Server Management Studio で提供される DMX コンテンツクエリテンプレートを使用するか、DMX に直接クエリを書き込みます。コンテンツクエリは、予測クエリと異なり、外部データを結合する必要がないため、簡単に書き込むことができます。

ここでは、作成できるコンテンツクエリの種類の概要について説明します。

マイニング構造またはケースデータに対するクエリでは、トレーニングに使用された詳細なデータを表示できます。
モデルに対するクエリでは、パターン、属性一覧、数式などが返されます。

トップに戻る

構造およびケースデータに対するクエリ

DMX では、マイニング構造およびモデルの構築に使用されるキャッシュデータに対するクエリをサポートしています。既定では、このキャッシュは、マイニング構造が定義されると作成され、構造またはモデルが処理されると値が設定されます。

注意
データをトレーニングセットとテストセットに分割する必要がある場合は、このキャッシュを消去または削除できません。キャッシュを消去すると、ケースデータに対するクエリを実行できなくなります。

次の例は、ケースデータに対するクエリ、またはマイニング構造のデータに対するクエリを作成するときに共通するパターンを示しています。

モデルのすべてのケースを取得する
SELECT FROM <model>.CASES

このステートメントを使用すると、モデルの構築に使用されたケースデータから指定した列を所得できます。このクエリを実行するには、モデルのドリルスルー権限を持っている必要があります。
構造に含まれているすべてのデータを表示する
SELECT FROM <structure>.CASES

このステートメントを使用すると、特定のマイニングモデルには含まれていない列も含め、構造に含まれているデータをすべて表示できます。マイニング構造からデータを取得するには、モデルと構造の両方に対するドリルスルー権限を持っている必要があります。
値の範囲を取得する
SELECT DISTINCT RangeMin(<column>), RangeMax(<column>) FROM <model>

このステートメントを使用すると、連続列または DISCRETIZED 列のバケットの最小値、最大値、および平均を取得できます。
個別の値を取得する
SELECT DISTINCT <column>FROM <model>

このステートメントを使用すると、DISCRETE 列のすべての値を取得できます。 DISCRETIZED 列に対してはこのステートメントを使用せずに、RangeMin 関数および RangeMax 関数を使用してください。
モデルまたは構造のトレーニングに使用されたケースを取得する
SELECT FROM <mining structure.CASES WHERE IsTrainingCase()

このステートメントを使用すると、モデルのトレーニングに使用されたデータの完全なセットを取得できます。
モデルまたは構造のテストに使用されたケースを取得する
SELECT FROM <mining structure.CASES WHERE IsTestingCase()

このステートメントを使用すると、特定の構造に関連するマイニングモデルのテスト用に確保されているデータを取得できます。
特定のモデルパターンから基になるケースデータにドリルスルーする
SELECT FROM <model>.CASESWHERE IsTrainingCase() AND IsInNode(<node>)

このステートメントを使用すると、トレーニング済みのモデルから詳細なケースデータを取得できます。特定のノードを指定する必要があります。たとえば、クラスターのノード ID、デシジョンツリーの特定の分岐などを認識している必要があります。また、このクエリを実行するには、モデルのドリルスルー権限を持っている必要があります。

トップに戻る

モデルパターン、統計、および属性に対するクエリ

データマイニングモデルのコンテンツは、多くの目的で役に立ちます。モデルコンテンツのクエリを使用すると、以下の操作を実行できます。

独自の計算を行うために式または確率を抽出します。
アソシエーションモデルでは、予測の生成に使用される規則を取得します。
特定のルールをカスタムアプリケーションで使用できるようにそのルールの説明を取得します。
時系列モデルで検出された移動平均を表示します。
傾向線のセグメントの回帰式を取得します。
特定のクラスターの一部として識別された顧客に関する実用的な情報を取得します。

次の例は、モデルコンテンツに対するクエリの作成に共通するパターンを示しています。

モデルからパターンを取得する
SELECT FROM <model>.CONTENT

このステートメントを使用すると、モデル内の特定のノードに関する詳細情報を取得できます。ノードには、アルゴリズムの種類に応じて、ルールと式、サポート、分散の統計情報などが含まれています。
トレーニング済みのモデルで使用された属性を取得する
CALL System.GetModelAttributes(<model>)

このストアドプロシージャを使用すると、モデルによって使用された属性の一覧を取得できます。たとえば、この情報は、機能を選択したために除外された属性を特定するのに役立ちます。
データマイニングディメンションに格納されているコンテンツを取得する
SELECT FROM <model>.DIMENSIONCONTENT

このステートメントを使用すると、データマイニングディメンションからデータを取得できます。

この種類のクエリは主に、内部で使用するためのものです。ただし、この機能はすべてのアルゴリズムでサポートされているわけではありません。サポートされているかどうかは、MINING_SERVICES スキーマ行セット内のフラグで示されます。

独自のプラグインアルゴリズムを開発する場合は、このステートメントを使用してテスト用のモデルのコンテンツを確認できます。
モデルの PMML 表現を取得する
SELECT * FROM <model>.PMML

PMML 形式でモデルを表す XML ドキュメントを取得します。すべてのモデルの種類がサポートされているわけではありません。

トップに戻る

使用例

すべてのアルゴリズムに対して標準であるようなモデルコンテンツもありますが、一部のコンテンツは、そのモデルの構築に使用したアルゴリズムによってかなり異なります。したがって、コンテンツクエリを作成する際には、特定のモデルに関してどのような情報が最も有用であるかを把握しておく必要があります。

ここでは、アルゴリズムの選択がモデルに保存されている情報の種類にどのように影響するかを、例を使用して説明します。マイニングモデルコンテンツ、および各種のモデルに特有のコンテンツの詳細については、「マイニングモデルコンテンツ (Analysis Services - データマイニング)」を参照してください。

トップに戻る

例 1: アソシエーションモデルに対するコンテンツクエリ

SELECT FROM <model>.CONTENT ステートメントは、クエリの対象となるモデルの種類に応じてさまざまな種類の情報を返します。アソシエーションモデルの場合、重要な情報はノード型です。ノードは、モデルコンテンツの情報のコンテナーのようなものです。アソシエーションモデルでは、ルールを表すノードは NODE_TYPE の値が 8 で、アイテムセットを表すノードは NODE_TYPE の値が 7 です。

したがって、次のクエリでは、サポートで順位付けされた (既定の順序) 上位 10 個のアイテムセットが返されます。

SELECT TOP 10 NODE_DESCRIPTION, NODE_PROBABILITY, SUPPORT
FROM <model>.CONTENT WHERE NODE_TYPE = 7

次のクエリはこの情報に対して構築されます。このクエリでは、ノードの ID、完全なルール、およびアイテムセットの右辺の製品 (アイテムセットの一部として他の製品と関連すると予測された製品) の 3 つの列が返されます。

SELECT FLATTENED NODE_UNIQUE_NAME, NODE_DESCRIPTION,
     (SELECT RIGHT(ATTRIBUTE_NAME, (LEN(ATTRIBUTE_NAME)-LEN('Association model name'))) 
FROM NODE_DISTRIBUTION
WHERE LEN(ATTRIBUTE_NAME)>2
) 
AS RightSideProduct
FROM [<Association model name>].CONTENT
WHERE NODE_TYPE = 8 
ORDER BY NODE_SUPPORT DESC

FLATTENED キーワードは、入れ子になった行セットをフラットテーブルに変換することを示します。ルールの右辺の製品を表す属性は、NODE_DISTRIBUTION テーブルに含まれています。したがって、長さが 2 より大きいという要件を追加して、属性名を含む行のみを取得しています。

また、単純な文字列関数を使用して、3 番目の列からモデルの名前を削除しています (通常、モデル名は入れ子になった列の値の先頭に含まれています)。

WHERE 句で NODE_TYPE の値を 8 として指定して、ルールのみを取得しています。

その他の例については、「結合モデルのクエリ例」を参照してください。

トップに戻る

例 2: デシジョンツリーモデルに対するコンテンツクエリ

デシジョンツリーモデルは、予測や分類のために使用できます。この例では、結果を予測するためにモデルを使用していますが、結果の分類に使用できる要因またはルールを見つけることもできます。

デシジョンツリーモデルでは、ノードはツリーとリーフノードの両方を表すために使用されます。各ノードのキャプションに結果へのパスの説明が含まれています。したがって、特定の結果のパスをトレースするには、そのパスを含むノードを識別して、そのノードの詳細を取得する必要があります。

予測クエリでは、次の例のように、予測関数 PredictNodeId (DMX) を追加して関連するノードの ID を取得できます。

SELECT  Predict([Bike Buyer]), PredictNodeID([Bike Buyer]) 
FROM [<decision tree model name>]
PREDICTION JOIN 
<input rowset>

結果を含むノードの ID がわかれば、次のように NODE_CAPTION を含むコンテンツクエリを作成して、その予測を説明するルール (パス) を取得できます。

SELECT NODE_CAPTION
FROM [<decision tree model name>] 
WHERE NODE_UNIQUE_NAME= '<node id>'

その他の例については、「デシジョンツリーモデルのクエリ例」を参照してください。

トップに戻る

クエリ結果の操作

例が示すように、多くの場合、コンテンツクエリは表形式の行セットを返しますが、入れ子になった列からの情報も含まれます。返された行セットはフラット化できますが、結果の操作が複雑になります。特に、NODE_DISTRIBUTION ノードのコンテンツはネスト化されていますが、モデルに関して非常に興味深い情報を含みます。

階層的な行セットの操作方法の詳細については、MSDN で OLEDB の仕様を参照してください。

次の方法で共有

コンテンツクエリ (データマイニング)

基本的なコンテンツクエリ

構造およびケースデータに対するクエリ

モデルパターン、統計、および属性に対するクエリ

使用例

例 1: アソシエーションモデルに対するコンテンツクエリ

例 2: デシジョンツリーモデルに対するコンテンツクエリ

クエリ結果の操作

関連項目

参照

概念

その他のリソース

次の方法で共有

コンテンツ クエリ (データ マイニング)

基本的なコンテンツ クエリ

構造およびケース データに対するクエリ

モデル パターン、統計、および属性に対するクエリ

使用例

例 1: アソシエーション モデルに対するコンテンツ クエリ

例 2: デシジョン ツリー モデルに対するコンテンツ クエリ

クエリ結果の操作

関連項目

参照

概念

その他のリソース

コンテンツクエリ (データマイニング)

基本的なコンテンツクエリ

構造およびケースデータに対するクエリ

モデルパターン、統計、および属性に対するクエリ

例 1: アソシエーションモデルに対するコンテンツクエリ

例 2: デシジョンツリーモデルに対するコンテンツクエリ