マイニング構造の作成 (SQL Server データマイニングアドイン)

[マイニング構造の作成] ボタン、[データマイニング] リボン

必ずしもモデルを作成せずに分析に使用するデータセットを作成する場合は、[データモデリング] グループの [詳細設定] オプションを使用します。これは、さまざまなアルゴリズムを試す場合に便利です。

マイニング構造を作成したら、構造にモデルを追加ウィザードを使用して、その構造に基づいてモデルを作成します。 データマイニングの高度なクエリエディターを使用して、新しいモデルを作成することもできます。

このオプションは、Analysis Services でサポートされているが、線形回帰やシーケンスクラスタリングなどのウィザードでは使用できない高度なアルゴリズムのいずれかを使用してモデルを構築する場合や、カスタムアルゴリズムを使用している場合にも使用できます。

注

マイニング構造を作成するときに、すべてのモデルの検証に使用できるランダムに選択されたテストデータセットを確立することもできます。これは、モデルの精度を一般的なデータセットと簡単に比較できるため便利です。 [ データをトレーニングセットとテストセットに分割 する] オプションを選択し、テスト用に予約するデータの適切な割合 (通常は約 30%) を指定するだけです。

ウィザードを使用してマイニング構造を作成する

[ データマイニング ] リボンの [ 詳細設定] をクリックし、[ 構造の作成] を選択します。
[ ソースデータの選択 ] ダイアログボックスで、分析に使用するデータを含む Excel 範囲、Excel データテーブル、または外部データソースを指定します。

[次へ] をクリックします。
[ 列の選択 ] ダイアログボックスで、選択したデータソースで使用できる列の一覧を確認します。
列名の右側にある矢印をクリックして、次の値から選択して列の 使用法 を変更します。
- Key。モデルごとに少なくとも 1 つのキーが必要です。
- 重要な時間。このオプションは、必要な予測モデルでのみ使用できます。
- 含めます。列をマイニング構造で使用できるようにする必要がありますが、キー列ではないことを示します。
- 使用しないでください。列をマイニング構造に含めないことを示します。
モデルをビルドするときに列は常に無視できますが、後で列を追加するには、構造とモデルを再処理する必要があります。
参照 (...) ボタンをクリックして、コンテンツタイプ、データ型、モデリングフラグを設定します。

注

列に数値データが含まれている場合は、常にこのダイアログボックスを開いて、正しいデータ型が選択されていることを確認する必要があります。場合によっては、入力データが数値であっても、連続する数値ではなくカテゴリ変数または不連続値として扱う必要があります。

たとえば、郵便番号列は、既定では連続する長いデータ型として一覧表示されますが、より良い結果を得るために、個別のテキスト値として処理するように指定できます。

詳細については、「データマイニング用のデータの選択」のコンテンツタイプに関するセクションを参照してください。

ダイアログボックスを閉じるには [OK] をクリックします。
[次へ] をクリックします。

使用しているデータの種類によっては、この手順の後にウィザードを完了する場合があります。その場合は、[ 完了] ページに進み、マイニング構造に名前を付けます。

他のモデルの場合は、テストデータセットを作成するための追加オプションがあります。
[ データをトレーニングデータセットとテストデータセットに分割 する] ダイアログボックスで、データをパーティション分割する方法を指定します。既定では、データの 30% がテストに使用されます。

必要に応じて、テストに使用する行の最大数を入力します。

[次へ] をクリックします。
[ 完了 ] ダイアログで、新しいマイニング構造の名前と説明を入力します。
[完了] をクリックします。

選択肢	コメント
[ソースデータの選択 ] ダイアログボックス	Excel テーブルを選択するときは、データに既にヘッダーがあるかどうかを示す必要があります。これをスキップすると、データの最初の行が列名として使用されます。 [外部データソース] オプションを使用する場合は、Analysis Services データソースで定義できる任意の種類のデータを使用できます。ただし、新しいデータソースを作成するためのアドインのダイアログボックスには、Analysis Services でサポートされているデータソースの全範囲が含まれていないため、事前に Analysis Services サーバーにデータソースを作成してから、アドインを使用して接続することをお勧めします。
[データソースクエリエディター ] ダイアログボックス	指定したデータソースに接続したら、列を追加するか、カスタムクエリを作成してカスタム列を生成できます。
トレーニングデータセットとテストデータセットにデータを分割する	トレーニングセットとテストセットの推奨値は、トレーニングの場合は 70%、テストの場合は 30% です。ただし、大量のデータがある場合は、テスト用の最大行数を指定できます。
完了ダイアログボックス	ドリルスルーのオプションは、一部のモデルの種類で使用でき、マイニング構造に詳細列を含める場合に非常に便利です。たとえば、クラスタリングモデルを作成する場合は、特定のクラスターの顧客に簡単に連絡できるように、ドリルスルーの名前や電子メールアドレスなどの詳細を含めることができますが、分析は含まれません。

マイニング構造の作成ウィザードでの列の使用法の設定

新しいマイニング構造を作成するときに、データソースのどの列をマイニング構造に含める必要があり、それらの列をどのように使用するかを指定できます。 1 つのマイニング構造で複数のマイニングモデルをサポートできることに注意してください。

価値観	説明
含む	分析または予測に使用できるデータが列に含まれていることを指定します。
鍵	列にトランザクション ID、系列 ID、または処理に必要な別のキーが含まれていることを指定します。すべてのアルゴリズムにはキー列が必要です。ただし、1 つのキーのみを許可するアルゴリズムもあれば、複数のキーを許可するアルゴリズムもあります。列にキーが含まれているものの、処理に必須でない場合は、[ 使用しない] を選択してください。
キー時間	時系列内のアイテムを一意に識別するために使用できる日付またはその他の数値が列に含まれていることを指定します。
使用しない	列を無視することを指定します。列のデータは処理されません。

モデルを正しく処理するには、アルゴリズムは、各行を一意に識別するキー列である列、予測可能なモデルを作成する場合に予測を作成するためのターゲット列、およびターゲット列を予測するリレーションシップを作成するために入力列として使用する列を認識する必要があります。

[使用しない] として指定された列は、マイニング構造には存在しません。

不要な列や値が正しくない列を追加すると、分析結果に悪影響を及ぼす可能性があります。そのため、関連する列のみを含めるようにしてください。ただし、マイニング構造で使用しない列はクエリに使用できないことに注意してください。
Include 型として指定された列はマイニング構造に含まれるため、後でマイニングモデルの分析または予測に使用できます。

列を使用する必要があるかどうかがわからない場合は、いつでもその列をマイニング構造に含め、その列を使用しないマイニングモデルを作成できます。たとえば、後で参照できるように電話番号列をデータに含め、電話番号を無視するクラスタリングモデルを作成できます。クラスターが作成されたら、特定のクラスターに属しているユーザーの電話番号を返すクエリを作成できます。
すべてのアルゴリズムにはキー列が必要です。 [キー] 列の値は一意である必要があります。 キー時間列は、予測モデルまたは時系列モデルにのみ必要です。 .

要求事項

データマイニング構造を作成するには、Analysis Services のインスタンスへの接続が必要です。一時的な構造を使用している場合でも、接続が必要です。接続を作成または変更する方法の詳細については、「ソースデータへの接続 (Excel 用データマイニングクライアント)」を参照してください。

こちらもご覧ください

データマイニングモデルの作成

Last updated on 2017-12-29

次の方法で共有

マイニング構造の作成 (SQL Server データ マイニング アドイン)

ウィザードを使用してマイニング構造を作成する

関連オプション

マイニング構造の作成ウィザードでの列の使用法の設定

要求事項

こちらもご覧ください

その他のリソース

マイニング構造の作成 (SQL Server データマイニングアドイン)