次の方法で共有


マイニング構造の作成 (SQL Server データ マイニング アドイン)

[マイニング構造の作成] ボタン、[データ マイニング] リボン

必ずしもモデルを作成せずに分析に使用するデータ セットを作成する場合は、[データ モデリング] グループの [詳細設定] オプションを使用します。 これは、さまざまなアルゴリズムを試す場合に便利です。

マイニング構造を作成したら、 構造にモデルを追加 ウィザードを使用して、その構造に基づいてモデルを作成します。 データ マイニングの高度なクエリ エディターを使用して、新しいモデルを作成することもできます。

このオプションは、Analysis Services でサポートされているが、線形回帰やシーケンス クラスタリングなどのウィザードでは使用できない高度なアルゴリズムのいずれかを使用してモデルを構築する場合や、カスタム アルゴリズムを使用している場合にも使用できます。

マイニング構造を作成するときに、すべてのモデルの検証に使用できるランダムに選択されたテスト データ セットを確立することもできます。 これは、モデルの精度を一般的なデータセットと簡単に比較できるため便利です。 [ データをトレーニング セットとテスト セットに分割 する] オプションを選択し、テスト用に予約するデータの適切な割合 (通常は約 30%) を指定するだけです。

ウィザードを使用してマイニング構造を作成する

  1. [ データ マイニング ] リボンの [ 詳細設定] をクリックし、[ 構造の作成] を選択します。

  2. [ ソース データの選択 ] ダイアログ ボックスで、分析に使用するデータを含む Excel 範囲、Excel データ テーブル、または外部データ ソースを指定します。

    [次へ] をクリックします。

  3. [ 列の選択 ] ダイアログ ボックスで、選択したデータ ソースで使用できる列の一覧を確認します。

  4. 列名の右側にある矢印をクリックして、次の値から選択して列の 使用法 を変更します。

    • Key。 モデルごとに少なくとも 1 つのキーが必要です。

    • 重要な時間。 このオプションは、必要な予測モデルでのみ使用できます。

    • 含めます。 列をマイニング構造で使用できるようにする必要がありますが、キー列ではないことを示します。

    • 使用しないでください。 列をマイニング構造に含めないことを示します。

    モデルをビルドするときに列は常に無視できますが、後で列を追加するには、構造とモデルを再処理する必要があります。

  5. 参照 (...) ボタンをクリックして、コンテンツ タイプ、データ型、モデリング フラグを設定します。

    列に数値データが含まれている場合は、常にこのダイアログ ボックスを開いて、正しいデータ型が選択されていることを確認する必要があります。 場合によっては、入力データが数値であっても、連続する数値ではなくカテゴリ変数または不連続値として扱う必要があります。

    たとえば、郵便番号列は、既定では連続する長いデータ型として一覧表示されますが、より良い結果を得るために、個別のテキスト値として処理するように指定できます。

    詳細については、「データ マイニング用のデータの選択」のコンテンツ タイプ に関するセクションを参照してください。

    ダイアログ ボックスを閉じるには [OK] をクリックします。

  6. [次へ] をクリックします。

    使用しているデータの種類によっては、この手順の後にウィザードを完了する場合があります。 その場合は、[ 完了] ページに進み、マイニング構造に名前を付けます。

    他のモデルの場合は、テスト データ セットを作成するための追加オプションがあります。

  7. [ データをトレーニング データセットとテスト データ セットに分割 する] ダイアログ ボックスで、データをパーティション分割する方法を指定します。 既定では、データの 30% がテストに使用されます。

    必要に応じて、テストに使用する行の最大数を入力します。

    [次へ] をクリックします。

  8. [ 完了 ] ダイアログで、新しいマイニング構造の名前と説明を入力します。

  9. [完了] をクリックします。

選択肢 コメント
[ソース データの選択 ] ダイアログ ボックス Excel テーブルを選択するときは、データに既にヘッダーがあるかどうかを示す必要があります。 これをスキップすると、データの最初の行が列名として使用されます。

[外部データ ソース] オプションを使用する場合は、Analysis Services データ ソースで定義できる任意の種類のデータを使用できます。 ただし、新しいデータ ソースを作成するためのアドインのダイアログ ボックスには、Analysis Services でサポートされているデータ ソースの全範囲が含まれていないため、事前に Analysis Services サーバーにデータ ソースを作成してから、アドインを使用して接続することをお勧めします。
[データ ソース クエリ エディター ] ダイアログ ボックス 指定したデータ ソースに接続したら、列を追加するか、カスタム クエリを作成してカスタム列を生成できます。
トレーニング データセットとテスト データ セットにデータを分割する トレーニング セットとテスト セットの推奨値は、トレーニングの場合は 70%、テストの場合は 30% です。ただし、大量のデータがある場合は、テスト用の最大行数を指定できます。
完了ダイアログ ボックス ドリルスルーのオプションは、一部のモデルの種類で使用でき、マイニング構造に詳細列を含める場合に非常に便利です。 たとえば、クラスタリング モデルを作成する場合は、特定のクラスターの顧客に簡単に連絡できるように、ドリルスルーの名前や電子メール アドレスなどの詳細を含めることができますが、分析は含まれません。

マイニング構造の作成ウィザードでの列の使用法の設定

新しいマイニング構造を作成するときに、データ ソースのどの列をマイニング構造に含める必要があり、それらの列をどのように使用するかを指定できます。 1 つのマイニング構造で複数のマイニング モデルをサポートできることに注意してください。

価値観 説明
含む 分析または予測に使用できるデータが列に含まれていることを指定します。
列にトランザクション ID、系列 ID、または処理に必要な別のキーが含まれていることを指定します。

すべてのアルゴリズムにはキー列が必要です。 ただし、1 つのキーのみを許可するアルゴリズムもあれば、複数のキーを許可するアルゴリズムもあります。

列にキーが含まれているものの、処理に必須でない場合は、[ 使用しない] を選択してください。
キー時間 時系列内のアイテムを一意に識別するために使用できる日付またはその他の数値が列に含まれていることを指定します。
使用しない 列を無視することを指定します。 列のデータは処理されません。

モデルを正しく処理するには、アルゴリズムは、各行を一意に識別するキー列である列、予測可能なモデルを作成する場合に予測を作成するためのターゲット列、およびターゲット列を予測するリレーションシップを作成するために入力列として使用する列を認識する必要があります。

  • [使用しない] として指定された列は、マイニング構造には存在しません。

    不要な列や値が正しくない列を追加すると、分析結果に悪影響を及ぼす可能性があります。 そのため、関連する列のみを含めるようにしてください。 ただし、マイニング構造で使用しない列はクエリに使用できないことに注意してください。

  • Include 型として指定された列はマイニング構造に含まれるため、後でマイニング モデルの分析または予測に使用できます。

    列を使用する必要があるかどうかがわからない場合は、いつでもその列をマイニング構造に含め、その列を使用しないマイニング モデルを作成できます。 たとえば、後で参照できるように電話番号列をデータに含め、電話番号を無視するクラスタリング モデルを作成できます。 クラスターが作成されたら、特定のクラスターに属しているユーザーの電話番号を返すクエリを作成できます。

  • すべてのアルゴリズムには キー 列が必要です。 [キー] 列の値は一意である必要があります。 キー時間列は、予測モデルまたは時系列モデルにのみ必要です。 .

要求事項

データ マイニング構造を作成するには、Analysis Services のインスタンスへの接続が必要です。 一時的な構造を使用している場合でも、接続が必要です。 接続を作成または変更する方法の詳細については、「 ソース データへの接続 (Excel 用データ マイニング クライアント)」を参照してください。

こちらもご覧ください

データ マイニング モデルの作成