次の方法で共有


サンプル データ (SQL Server データ マイニング アドイン)

データ マイニング リボンの [パーティション データ] ウィザード

サンプル データ ウィザードを使用すると、ソース データを 2 つのセットに簡単に分割できます。1 つはモデルの構築 (トレーニング) とモデルのテスト用です。 このウィザードには、データを再サンプリングして、ターゲットをより適切に表す新しいデータ セットを構築するためのオプションも用意されています。

モデルのトレーニングとテストに適した種類のデータを作成することは、データ マイニングの重要な部分ですが、適切なツールがないと面倒な場合があります。 ウィザードは階層サンプリングを実行して、トレーニング セットとテスト セットのバランスが整っていることを確認します。

ランダム サンプリングとオーバーサンプリング

. ランダム サンプリングは、モデルのテストに使用するデータが、モデルの作成に使用するデータを適切に表す最適な方法です。 Excel または外部データ ソースに格納されているデータをランダムにサンプリングできます

ランダム サンプリング オプションを使用すると、 サンプル データ ウィザードによってトレーニング データセットとテスト データ セットが自動的に作成され、後で参照できるように個別の Excel ワークシートに出力されます。

外部データ ソースではなく Excel ブックにデータが格納されている場合は、 オーバーサンプリングを使用することもできます。 このオプションでは、データに不足している可能性があるターゲット値を指定すると、ウィザードは、より多くのターゲット値を含むバランスの取れたセットを収集します。 ウィザードでは、目標の割合を達成するか、特定の数の行を作成するように指示できます。

オーバーサンプリング オプションを使用すると、 サンプル データ ウィザードによって、新しく調整されたサンプル データを含む新しいワークシートが作成されます。

サンプル データ ウィザードの使用

データをトレーニング セットとテスト セットに分割するには

  1. [ データ マイニング ] リボンで、[ サンプル データ] をクリックします。

  2. [ ソース データの選択 ] ページで、パーティション分割する データ が Excel の範囲かテーブルか、外部データ ソースにあるかを指定します。

  3. [ サンプリングの種類の選択 ] ページで、ランダム サンプリングによってトレーニング データ セットとテスト データ セットを作成するか、オーバーサンプリングによって新しいデータ セットを作成するかを指定します。

    外部データ ソースを使用している場合は、ランダム サンプリング オプションのみを使用できます。 外部データでオーバーサンプリングを使用する場合は、Excel データ接続を使用して Excel ブックにデータをインポートし、サンプル データ ウィザードを使用できます。

  4. 選択したサンプリング メソッドに固有のオプションを設定します。

    • ランダム サンプリングの場合は、テストに使用する元のデータの割合、またはテスト データ セットで使用する行の合計数を指定します。

    • オーバーサンプリングの場合は、強調する列と値を選択します。 次に、新しいデータ セット内の行の合計数と、ターゲット値を含める必要がある新しいデータ セット内の行の割合を指定します。

      オーバーサンプリングのターゲット値は不連続値である必要があります。連続する数値データをオーバーサンプリングすることはできません。

  5. [ 完了] ページで、新しいデータ セットの既定の名前をそのまま使用するか、新しい名前を入力します。

    ウィザードでは、データ セットごとに新しいワークシートが作成されます。

Excel 用データ マイニング クライアントのほとんどのウィザードには、データをトレーニング セットとテスト セットにランダムに分離するオプションも用意されています。 ただし、ウィザードを使用する場合、データは同じワークシート (またはその他のデータ ソース) に残り、特定の行がテスト ケースかトレーニング ケースかに関する情報が内部に格納されます。 一方、 サンプル データ ウィザードを使用すると、簡単に参照できるように、テストデータとトレーニング データが別々のワークシートに出力されます。

ウィザードを進めていくと、次のオプションが表示されます。

オプション コメント
[ソース データの選択] ダイアログ ボックス (Excel 用データ マイニング クライアント) データを含む Excel の範囲またはテーブルを選択します。 外部データを使用する場合は、データをリレーショナルにすることができますが、Analysis Services データ ソースに含める必要があります。 T
[サンプリングの種類の選択] ページ (Excel 用データ マイニング クライアント) 外部データ ソースを使用する場合は、ランダム サンプリング オプションの使用に制限されます。 また、[行数] オプションを使用して、最終的なデータ セットに作成する 数を指定する必要があります。 ソース データの割合を指定することはできません。
[ランダム サンプリング] ページ (Excel 用データ マイニング クライアント) ソースから行の割合をコピーすることも、特定の数の行をコピーすることもできます。
[オーバーサンプリング] ページ (Excel 用データ マイニング クライアント) ターゲットの状態

元のデータ セットに過小表示されている値を一覧から選択します。 オーバーサンプリングにより、この状態を含むデータ行の割合が増加します。

サンプル サイズ

抽出する行の合計数を選択します。 この値は、最終的なデータ セットのサイズを表します。

その他のサンプリング オプション

このウィザードのサンプリング オプションがニーズを満たしていない場合は、SQL Server Integration Services (SSIS) のサンプリング変換を使用して、複数のデータ ソースの行をサンプリングできます。

詳細については、「 行サンプリング変換 」および「 比率サンプリング変換」を参照してください。

こちらもご覧ください

データ マイニングの準備のチェックリスト