マイニング モデル (Analysis Services - データ マイニング)
ここでは、データ マイニング モデルの基本的なアーキテクチャ、データ マイニング モデルのプロパティの概要、およびマイニング モデルの作成方法と操作方法について説明します。
Mining Model Architecture
Defining Mining Models
Mining Model Properties
Mining Model Columns
Processing Mining Models
Viewing and Querying Mining Models
マイニング モデルのアーキテクチャ
データ マイニング モデルは、マイニング構造からデータを取得し、データ マイニング アルゴリズムを使用してそのデータを分析します。マイニング構造とマイニング モデルは別個のオブジェクトです。マイニング構造には、データ ソースを定義する情報が格納されます。マイニング モデルには、分析の結果として検出されたパターンなど、データの統計的な処理から導き出された情報が格納されます。
マイニング モデルは、マイニング構造から提供されたデータの処理と分析が完了するまでは空の状態です。処理後のマイニング モデルには、メタデータ、結果、およびマイニング構造へのバインドが含まれています。
メタデータは、モデルの名前、モデルが格納されているサーバー、モデルの定義 (モデルの構築に使用されたマイニング構造の列の一覧、モデルの処理時に適用されるオプションのフィルタの定義、データの分析に使用されたアルゴリズムなど) を示します。列、フィルタ、およびアルゴリズムの選択は分析結果に多大な影響を及ぼします。たとえば、同じデータを使用してクラスタ モデルとデシジョン ツリー モデルを作成した場合、両モデルでは使用するアルゴリズムとフィルタが異なるため、モデル コンテンツは大きく異なる可能性があります。詳細については、「マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
モデルに格納される結果はアルゴリズムによって異なりますが、パターン、アイテムセット、ルール、および式を含んでいる場合があります。これらの結果は予測を行うために使用できます。
モデルに格納されるバインドは、マイニング構造にキャッシュされているデータを指します。データが構造内にキャッシュされ、処理後に消去されていない場合、このバインドによって結果から結果を裏付けるケースへのドリルスルーが可能になります。ただし、実際のデータはモデル内ではなく、構造キャッシュに格納されています。
[トップに戻る]
データ マイニング モデルの定義
データ マイニング モデルは次の手順で作成できます。
基になるマイニング構造を作成します。
アルゴリズムを選択します。
モデルの列と使用法を指定します。
必要に応じて、アルゴリズムによる処理を微調整するパラメータを設定します。
モデルを処理します。
Analysis Services には、マイニング モデルの管理に役立つ以下のツールが用意されています。
データ マイニング ウィザードは、マイニング構造および関連マイニング モデルの作成に役立ちます。これは最も使いやすい方法です。このウィザードを使用すると、必要なマイニング構造が自動的に作成され、重要な設定を構成しやすくなります。
DMX CREATE MODEL ステートメントは、モデルを定義するために使用できます。必要な構造は処理の一環として自動的に作成されるため、この方法では既存の構造を再利用することはできません。この方法は、作成するモデルを既に正確に把握している場合に使用します。
DMX ALTER STRUCTURE ADD MODEL ステートメントは、既存の構造に新しいマイニング モデルを追加するために使用できます。この方法は、同じデータセットに基づくさまざまなモデルをテストする場合に使用します。
AMO や XML/A を使用するか、または Excel 用データ マイニング クライアントなどの他のクライアントを使用することによって、プログラムでマイニング モデルを作成することもできます。詳細については、次の各トピックを参照してください。
[トップに戻る]
マイニング モデルのプロパティ
それぞれのマイニング モデルには、モデルとそのメタデータを定義するプロパティがあります。たとえば、名前、説明、モデルが最後に処理された日付、モデルに対する権限、トレーニングに使用されるデータに対するフィルタなどです。
各マイニング モデルには、マイニング構造から派生するプロパティや、モデルに使用するデータ列を記述するプロパティもあります。入れ子になったテーブルの列を使用する場合は、その列に適用される別個のフィルタが存在することもあります。
さらに、それぞれのマイニング モデルには、Algorithm と Usage という 2 つの特殊なプロパティが含まれます。
**Algorithm プロパティ **モデルの作成に使用するアルゴリズムを指定します。使用できるアルゴリズムは、使用しているプロバイダによって異なります。SQL ServerAnalysis Services に含まれているアルゴリズムの一覧については、「データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。Algorithm プロパティはマイニング モデルに適用し、各モデルに対して 1 回だけ設定できます。後でアルゴリズムを変更できますが、選択したアルゴリズムによってサポートされていないために、マイニング モデルの列が無効になる場合があります。また、変更した後は、必ずモデルを再処理する必要があります。
**Usage プロパティ **モデルによる各列の使用方法を定義します。列の使用法は、Input、Predict、Predict Only、Key のいずれかに定義できます。Usage プロパティは、マイニング モデルの個別の列に適用し、モデルに含まれるすべての列に個別に設定する必要があります。モデルで使用しない列が構造に含まれる場合は、使用法を Ignore に設定します。
マイニング モデルのプロパティの値は、マイニング モデルの作成後に変更できます。ただし、たとえマイニング モデルの名前の変更であっても、なんらかの変更を加えた場合はマイニング モデルの再処理が必要になります。モデルを再処理すると、結果が変化する場合があります。
[トップに戻る]
マイニング モデル列
マイニング構造と同様に、マイニング モデルには列が含まれています。マイニング構造のどの列をモデルで使用するかを選択できます。基になるマイニング構造内の列を使用するだけでなく、マイニング構造列のコピーを作成して、その名前や使用法を変更することもできます。
選択するアルゴリズムによっては、マイニング構造内の一部の列がモデルと互換性を持たない場合や、有効な結果が得られない場合があります。構造内のデータを十分に確認し、分析に意味のある列のみをモデルに取り込む必要があります。使用しない列がある場合、その列をマイニング構造またはマイニング モデルから削除する必要はなく、モデルの構築時に無視することを示すフラグを列に設定するだけで済みます。つまり、列はマイニング構造内に残りますが、マイニング モデルでは使用されません。ただし、モデルからマイニング構造へのドリルスルーが有効な場合は、後で列から情報を取得することができます。
モデルを作成した後で、列の追加や削除、モデル名の変更などの変更を加えることができます。ただし、たとえモデル メタデータのみの変更であっても、なんらかの変更を加えた場合はモデルの再処理が必要になります。
詳細については、「マイニング構造列」および「マイニング モデル列」を参照してください。
[トップに戻る]
マイニング モデルの処理
データ マイニング モデルは、処理されるまでは空のオブジェクトです。モデルを処理するとき、構造にキャッシュされたデータは、モデルにフィルタが定義されていればフィルタをとおして渡され、アルゴリズムによって分析されます。アルゴリズムは、データ内のルールとパターンを識別し、これらのルールとパターンを使用してモデルを作成します。アルゴリズムを使用してマイニング モデルを作成する方法については、「データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。
処理後のマイニング モデルには、分析の結果に関する情報も格納されています。マイニング モデルに格納されるデータの種類の詳細については、「マイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
[トップに戻る]
マイニング モデルの表示とクエリ
モデルの処理が完了したら、Business Intelligence Development Studio および SQL Server Management Studio で提供されているカスタム ビューアを使用してモデルを調べることができます。Analysis Services のカスタム ビューアの詳細については、「データ マイニング モデルの表示」を参照してください。
予測を行う場合や、モデル メタデータまたはモデルによって作成されるパターンを取得する場合に、マイニング モデルに対するクエリを作成することもできます。クエリの作成には、データ マイニング拡張機能 (DMX) を使用します。データ マイニング モデルに対して使用できるさまざまな種類のクエリの詳細については、「データ マイニング モデルのクエリ (Analysis Services - データ マイニング)」を参照してください。