データ マイニング ウィザード (Analysis Services - データ マイニング)
Microsoft SQL Server Analysis Services のデータ マイニング ウィザードは、新しいマイニング構造をデータ マイニング プロジェクトに追加するたびに起動されます。 このウィザードでは、データ ソースを選択し、分析に使用されるデータを定義するデータ ソース ビューをセットアップできます。さらに、初期モデルを作成できます。
ウィザードの最後のフェーズでは、オプションでデータをトレーニング セットとテスト セットに分けることができ、ドリルスルーなどの機能を有効にすることができます。
開始する前の確認事項
ウィザードを開始する前に、次のことを確認しておく必要があります。
データ マイニング構造およびモデルを、リレーショナル データベースから作成するか、OLAP データベースの既存のキューブから作成するか。
ケース レコードを一意に識別するキーは、どの列に含まれているか。
どの列または属性を予測に使用するか。 どの列または属性を分析の入力として使用するのが適しているか。
どのアルゴリズムを使用するのがよいか。 SQL Server Analysis Services に用意されているすべてのアルゴリズムは、それぞれに特性が異なり、生成する結果も異なります。 データの各セット用のモデルは 1 つに限られていないので、さまざまなモデルを追加して試してみることができます。
統合されたデータ セットでモデルをテストできる必要があるか。 その場合は、テストのためにデータを確保しておくオプションの使用を検討してください。 割合を選択して、必要であれば、指定した行数で上限を設定できます。
データ マイニング ウィザードの開始
データ マイニング ウィザードを使用するには、SQL Server データ ツール (SSDT) で、少なくとも 1 つのデータ マイニングまたは OLAP プロジェクトを含むソリューションが開かれている必要があります。
ソリューションでデータ マイニングの準備ができている場合は、ソリューション エクスプローラーで [マイニング構造] ノードを右クリックし、[新しいマイニング構造] を選択すると、ウィザードが開始されます。
ソリューションに既存のプロジェクトが含まれていない場合は、新しいデータ マイニング プロジェクトを追加できます。 [ファイル] メニューの [新規作成] を選択し、[プロジェクト] をクリックします。 必ず [Analysis Services 多次元およびデータ マイニング プロジェクト] テンプレートを選択してください。
既存のデータ マイニング ソリューションからメタデータを取得するために、Analysis Services インポート ウィザードを使用することもできます。 ただし、インポートする個々のオブジェクトを選択することはできません。すべてのキューブ、データ ソース ビューなどを含む、データベース全体がインポートされます。 また、インポートを通じて作成される新しいソリューションは、ローカルの既定のデータベースを使用するように自動的に構成されることにも注意してください。 オブジェクトを処理または表示する前に、これを他のインスタンスに変更しなければならない場合があります。以前のバージョンの Analysis Services からインポートする場合は、プロバイダーへの参照を更新しなければならない場合もあります。
次に、マイニング構造と、1 つの関連するデータ マイニング モデルを作成します。 マイニング構造だけを作成して、モデルは後で追加することもできますが、一般的にはテスト モデルを先に作成しておく方が簡単です。
リレーショナル データ ソースとOLAP マイニング モデル
次の重要な選択は、リレーショナル データ ソースを使用するか、モデルのベースを多次元 (OLAP) データにするかです。
ここで、データ マイニング ウィザードは、使用するデータ ソースがリレーショナルかキューブ内にあるかに応じて、2 つのパスに分岐します。 データの選択処理以外はすべて (アルゴリズムの選択、予約データ セットを追加する機能など) 同じですが、キューブ データの選択はリレーショナル データの使用よりも少し複雑です。 また、キューブに基づくモデルを作成する場合は、最後にいくつかの追加のオプションも提示されます。
各オプションの詳細のチュートリアルについては、以下のトピックを参照してください。
リレーショナル マイニング構造の作成
リレーショナル データ マイニング モデルを作成する場合の判断について説明します。OLAP マイニング構造の作成
OLAP キューブのデータを使用する場合の追加のオプションと選択について説明します。
注 |
---|
データ マイニングを行うためにキューブまたは OLAP データベースは必要ありません。 データがキューブに格納されていない限り、あるいはマイニングの対象が OLAP ディメンションまたは OLAP 集計や OLAP 計算の結果でない限り、データ マイニングにはリレーショナル テーブルまたはデータ ソースを使用することをお勧めします。 |
アルゴリズムの選択
次に、データの処理に使用するアルゴリズムを決定する必要があります。 この決定は、難しい場合があります。 Analysis Services に用意されている各アルゴリズムは、機能が異なり、異なる結果を生成します。そのため、自分のデータとビジネスの問題にどれが最も適しているかを判断する前に、いくつかのモデルを試してみることができます。 各アルゴリズムに最適なタスクの説明については、以下のトピックを参照してください。
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
前に述べたように、異なるアルゴリズムを使用して複数のモデルを作成したり、アルゴリズムのパラメーターを変更して異なるモデルを作成したりできます。 選択したアルゴリズムだけにこだわらず、同じデータで複数の異なるモデルを作成してみることをお勧めします。
モデリングに使用するデータの定義
ソースからデータを選択するだけでなく、データ ソース ビュー内のどのテーブルにケース データが含まれているかを指定する必要もあります。 ケース テーブルは、データ マイニング モデルのトレーニングに使用されます。そのため、分析するエンティティ (たとえば顧客とその人口統計情報) が格納されている必要があります。 各ケースは一意であり、ケース キーによって識別できる必要があります。
ケース テーブルを指定するだけでなく、入れ子になったテーブルをデータに含めることもできます。 通常、入れ子になったテーブルには、ケース テーブル内のエンティティに関する追加情報 (たとえば顧客によって行われた取引) や、エンティティと多対一の関係を持つ属性が格納されます。 たとえば、Customers ケース テーブルに結合されている入れ子になったテーブルには、各顧客によって購入された製品のリストが含まれています。 Web サイトへのトラフィックを分析するモデルでは、入れ子になったテーブルに、ユーザーが閲覧した一連のページが含まれるものと思われます。 詳細については、「入れ子になったテーブル (Analysis Services - データ マイニング)」を参照してください。
追加機能
適切なデータの選択や正しいデータ ソースの構成を補助するために、データ マイニング ウィザードには次の追加機能が用意されています。
データ型の自動検出: ウィザードは列値の一意性と分布を調べ、最適なデータ型を推奨して、データの使用法の種類を提示します。 これらの提示は、一覧から値を選択してオーバーライドできます。
変数の提示: ダイアログ ボックス上でのクリック操作で、アナライザーを開始できます。アナライザーは、モデルに含まれている列全体の相関関係を計算し、これまでのモデルの構成に基づいて、いずれかの列が結果属性の予測子となり得るかを判断します。 これらの提示は、別の値を入力してオーバーライドできます。
機能選択: 多くのアルゴリズムでは、適切な予測子である列が自動的に検出され、それらが優先的に使用されます。 あまりに多くの値を持つ列では、機能選択が適用され、データの基数が引き下げられて、意味のあるパターンを発見できる可能性が高められます。 機能選択の動作は、モデルのパラメーターを使用して調整できます。
自動キューブ スライス: マイニング モデルが OLAP データ ソースに基づいている場合は、キューブ属性を使用してモデルをスライスする機能が自動的に提供されます。 これは、キューブ データのサブセットに基づくモデルの作成に便利です。
ウィザードの完了
ウィザードでの最後の手順として、マイニング構造と関連マイニング モデルに名前を付けます。 作成したモデルの種類に応じて、次の重要なオプションも提示される場合があります。
[ドリルスルーを許可する] を選択すると、ドリルスルー機能がモデルで有効になります。 ドリルスルーを使用すると、適切な権限を持つユーザーが、モデルの作成に使用するソース データを調査できるようになります。
OLAP モデルを作成している場合は、[新しいデータ マイニング キューブの作成] または [データ マイニング ディメンションの作成] オプションを選択できます。 どちらのオプションも、完成したモデルの参照と、基になるデータへのドリルスルーを容易にします。
データ マイニング ウィザードを完了したら、データ マイニング デザイナーを使用してマイニング構造およびモデルを変更し、モデルの精度の表示、構造およびモデルの特性の表示、またはモデルを使用した予測の作成を行います。
トップに戻る
関連コンテンツ
データ マイニング モデルの作成時に決定する必要がある事項の詳細については、次のリンクを参照してください。
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
不足値 (Analysis Services - データ マイニング)