データマイニングウィザード (Analysis Services - データマイニング)

[アーティクル]
07/30/2013

Microsoft SQL Server Analysis Services のデータマイニングウィザードは、新しいマイニング構造をデータマイニングプロジェクトに追加するたびに起動されます。このウィザードでは、データソースを選択し、分析に使用されるデータを定義するデータソースビューをセットアップできます。さらに、初期モデルを作成できます。

ウィザードの最後のフェーズでは、オプションでデータをトレーニングセットとテストセットに分けることができ、ドリルスルーなどの機能を有効にすることができます。

開始する前の確認事項

ウィザードを開始する前に、次のことを確認しておく必要があります。

データマイニング構造およびモデルを、リレーショナルデータベースから作成するか、OLAP データベースの既存のキューブから作成するか。
ケースレコードを一意に識別するキーは、どの列に含まれているか。
どの列または属性を予測に使用するか。どの列または属性を分析の入力として使用するのが適しているか。
どのアルゴリズムを使用するのがよいか。 SQL Server Analysis Services に用意されているすべてのアルゴリズムは、それぞれに特性が異なり、生成する結果も異なります。データの各セット用のモデルは 1 つに限られていないので、さまざまなモデルを追加して試してみることができます。
統合されたデータセットでモデルをテストできる必要があるか。その場合は、テストのためにデータを確保しておくオプションの使用を検討してください。割合を選択して、必要であれば、指定した行数で上限を設定できます。

データマイニングウィザードの開始

データマイニングウィザードを使用するには、SQL Server データツール (SSDT) で、少なくとも 1 つのデータマイニングまたは OLAP プロジェクトを含むソリューションが開かれている必要があります。

ソリューションでデータマイニングの準備ができている場合は、ソリューションエクスプローラーで [マイニング構造] ノードを右クリックし、[新しいマイニング構造] を選択すると、ウィザードが開始されます。
ソリューションに既存のプロジェクトが含まれていない場合は、新しいデータマイニングプロジェクトを追加できます。 [ファイル] メニューの [新規作成] を選択し、[プロジェクト] をクリックします。必ず [Analysis Services 多次元およびデータマイニングプロジェクト] テンプレートを選択してください。
既存のデータマイニングソリューションからメタデータを取得するために、Analysis Services インポートウィザードを使用することもできます。ただし、インポートする個々のオブジェクトを選択することはできません。すべてのキューブ、データソースビューなどを含む、データベース全体がインポートされます。また、インポートを通じて作成される新しいソリューションは、ローカルの既定のデータベースを使用するように自動的に構成されることにも注意してください。オブジェクトを処理または表示する前に、これを他のインスタンスに変更しなければならない場合があります。以前のバージョンの Analysis Services からインポートする場合は、プロバイダーへの参照を更新しなければならない場合もあります。

次に、マイニング構造と、1 つの関連するデータマイニングモデルを作成します。マイニング構造だけを作成して、モデルは後で追加することもできますが、一般的にはテストモデルを先に作成しておく方が簡単です。

リレーショナルデータソースとOLAP マイニングモデル

次の重要な選択は、リレーショナルデータソースを使用するか、モデルのベースを多次元 (OLAP) データにするかです。

ここで、データマイニングウィザードは、使用するデータソースがリレーショナルかキューブ内にあるかに応じて、2 つのパスに分岐します。データの選択処理以外はすべて (アルゴリズムの選択、予約データセットを追加する機能など) 同じですが、キューブデータの選択はリレーショナルデータの使用よりも少し複雑です。また、キューブに基づくモデルを作成する場合は、最後にいくつかの追加のオプションも提示されます。

各オプションの詳細のチュートリアルについては、以下のトピックを参照してください。

リレーショナルマイニング構造の作成
リレーショナルデータマイニングモデルを作成する場合の判断について説明します。
OLAP マイニング構造の作成
OLAP キューブのデータを使用する場合の追加のオプションと選択について説明します。

注
データマイニングを行うためにキューブまたは OLAP データベースは必要ありません。データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データマイニングにはリレーショナルテーブルまたはデータソースを使用することをお勧めします。

データマイニングを行うためにキューブまたは OLAP データベースは必要ありません。データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データマイニングにはリレーショナルテーブルまたはデータソースを使用することをお勧めします。

アルゴリズムの選択

次に、データの処理に使用するアルゴリズムを決定する必要があります。この決定は、難しい場合があります。 Analysis Services に用意されている各アルゴリズムは、機能が異なり、異なる結果を生成します。そのため、自分のデータとビジネスの問題にどれが最も適しているかを判断する前に、いくつかのモデルを試してみることができます。各アルゴリズムに最適なタスクの説明については、以下のトピックを参照してください。

データマイニングアルゴリズム (Analysis Services - データマイニング)

前に述べたように、異なるアルゴリズムを使用して複数のモデルを作成したり、アルゴリズムのパラメーターを変更して異なるモデルを作成したりできます。選択したアルゴリズムだけにこだわらず、同じデータで複数の異なるモデルを作成してみることをお勧めします。

モデリングに使用するデータの定義

ソースからデータを選択するだけでなく、データソースビュー内のどのテーブルにケースデータが含まれているかを指定する必要もあります。ケーステーブルは、データマイニングモデルのトレーニングに使用されます。そのため、分析するエンティティ (たとえば顧客とその人口統計情報) が格納されている必要があります。各ケースは一意であり、ケースキーによって識別できる必要があります。

ケーステーブルを指定するだけでなく、入れ子になったテーブルをデータに含めることもできます。通常、入れ子になったテーブルには、ケーステーブル内のエンティティに関する追加情報 (たとえば顧客によって行われた取引) や、エンティティと多対一の関係を持つ属性が格納されます。たとえば、Customers ケーステーブルに結合されている入れ子になったテーブルには、各顧客によって購入された製品のリストが含まれています。 Web サイトへのトラフィックを分析するモデルでは、入れ子になったテーブルに、ユーザーが閲覧した一連のページが含まれるものと思われます。詳細については、「入れ子になったテーブル (Analysis Services - データマイニング)」を参照してください。

追加機能

適切なデータの選択や正しいデータソースの構成を補助するために、データマイニングウィザードには次の追加機能が用意されています。

データ型の自動検出: ウィザードは列値の一意性と分布を調べ、最適なデータ型を推奨して、データの使用法の種類を提示します。これらの提示は、一覧から値を選択してオーバーライドできます。
変数の提示: ダイアログボックス上でのクリック操作で、アナライザーを開始できます。アナライザーは、モデルに含まれている列全体の相関関係を計算し、これまでのモデルの構成に基づいて、いずれかの列が結果属性の予測子となり得るかを判断します。これらの提示は、別の値を入力してオーバーライドできます。
機能選択: 多くのアルゴリズムでは、適切な予測子である列が自動的に検出され、それらが優先的に使用されます。あまりに多くの値を持つ列では、機能選択が適用され、データの基数が引き下げられて、意味のあるパターンを発見できる可能性が高められます。機能選択の動作は、モデルのパラメーターを使用して調整できます。
自動キューブスライス: マイニングモデルが OLAP データソースに基づいている場合は、キューブ属性を使用してモデルをスライスする機能が自動的に提供されます。これは、キューブデータのサブセットに基づくモデルの作成に便利です。

ウィザードの完了

ウィザードでの最後の手順として、マイニング構造と関連マイニングモデルに名前を付けます。作成したモデルの種類に応じて、次の重要なオプションも提示される場合があります。

[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。ドリルスルーを使用すると、適切な権限を持つユーザーが、モデルの作成に使用するソースデータを調査できるようになります。
OLAP モデルを作成している場合は、[新しいデータマイニングキューブの作成] または [データマイニングディメンションの作成] オプションを選択できます。どちらのオプションも、完成したモデルの参照と、基になるデータへのドリルスルーを容易にします。

データマイニングウィザードを完了したら、データマイニングデザイナーを使用してマイニング構造およびモデルを変更し、モデルの精度の表示、構造およびモデルの特性の表示、またはモデルを使用した予測の作成を行います。

トップに戻る

次の方法で共有

データマイニングウィザード (Analysis Services - データマイニング)

開始する前の確認事項

データマイニングウィザードの開始

リレーショナルデータソースとOLAP マイニングモデル

アルゴリズムの選択

モデリングに使用するデータの定義

追加機能

ウィザードの完了

関連コンテンツ

関連項目

概念

その他のリソース

次の方法で共有

データ マイニング ウィザード (Analysis Services - データ マイニング)

開始する前の確認事項

データ マイニング ウィザードの開始

リレーショナル データ ソースとOLAP マイニング モデル

アルゴリズムの選択

モデリングに使用するデータの定義

追加機能

ウィザードの完了

関連コンテンツ

関連項目

概念

その他のリソース

データマイニングウィザード (Analysis Services - データマイニング)

データマイニングウィザードの開始

リレーショナルデータソースとOLAP マイニングモデル