サンプル データ ウィザードを使用すると、ソース データを 2 つのセットに簡単に分割できます。1 つはモデルの構築 (トレーニング) とモデルのテスト用です。 このウィザードには、データを再サンプリングして、ターゲットをより適切に表す新しいデータ セットを構築するためのオプションも用意されています。
モデルのトレーニングとテストに適した種類のデータを作成することは、データ マイニングの重要な部分ですが、適切なツールがないと面倒な場合があります。 ウィザードは階層サンプリングを実行して、トレーニング セットとテスト セットのバランスが整っていることを確認します。
ランダム サンプリングとオーバーサンプリング
. ランダム サンプリングは、モデルのテストに使用するデータが、モデルの作成に使用するデータを適切に表す最適な方法です。 Excel または外部データ ソースに格納されているデータをランダムにサンプリングできます
ランダム サンプリング オプションを使用すると、 サンプル データ ウィザードによってトレーニング データセットとテスト データ セットが自動的に作成され、後で参照できるように個別の Excel ワークシートに出力されます。
外部データ ソースではなく Excel ブックにデータが格納されている場合は、 オーバーサンプリングを使用することもできます。 このオプションでは、データに不足している可能性があるターゲット値を指定すると、ウィザードは、より多くのターゲット値を含むバランスの取れたセットを収集します。 ウィザードでは、目標の割合を達成するか、特定の数の行を作成するように指示できます。
オーバーサンプリング オプションを使用すると、 サンプル データ ウィザードによって、新しく調整されたサンプル データを含む新しいワークシートが作成されます。
サンプル データ ウィザードの使用
データをトレーニング セットとテスト セットに分割するには
[ データ マイニング ] リボンで、[ サンプル データ] をクリックします。
[ ソース データの選択 ] ページで、パーティション分割する データ が Excel の範囲かテーブルか、外部データ ソースにあるかを指定します。
[ サンプリングの種類の選択 ] ページで、ランダム サンプリングによってトレーニング データ セットとテスト データ セットを作成するか、オーバーサンプリングによって新しいデータ セットを作成するかを指定します。
注
外部データ ソースを使用している場合は、ランダム サンプリング オプションのみを使用できます。 外部データでオーバーサンプリングを使用する場合は、Excel データ接続を使用して Excel ブックにデータをインポートし、サンプル データ ウィザードを使用できます。
選択したサンプリング メソッドに固有のオプションを設定します。
ランダム サンプリングの場合は、テストに使用する元のデータの割合、またはテスト データ セットで使用する行の合計数を指定します。
オーバーサンプリングの場合は、強調する列と値を選択します。 次に、新しいデータ セット内の行の合計数と、ターゲット値を含める必要がある新しいデータ セット内の行の割合を指定します。
オーバーサンプリングのターゲット値は不連続値である必要があります。連続する数値データをオーバーサンプリングすることはできません。
[ 完了] ページで、新しいデータ セットの既定の名前をそのまま使用するか、新しい名前を入力します。
ウィザードでは、データ セットごとに新しいワークシートが作成されます。
Excel 用データ マイニング クライアントのほとんどのウィザードには、データをトレーニング セットとテスト セットにランダムに分離するオプションも用意されています。 ただし、ウィザードを使用する場合、データは同じワークシート (またはその他のデータ ソース) に残り、特定の行がテスト ケースかトレーニング ケースかに関する情報が内部に格納されます。 一方、 サンプル データ ウィザードを使用すると、簡単に参照できるように、テストデータとトレーニング データが別々のワークシートに出力されます。
関連オプション
ウィザードを進めていくと、次のオプションが表示されます。
| オプション | コメント |
|---|---|
| [ソース データの選択] ダイアログ ボックス (Excel 用データ マイニング クライアント) | データを含む Excel の範囲またはテーブルを選択します。 外部データを使用する場合は、データをリレーショナルにすることができますが、Analysis Services データ ソースに含める必要があります。 T |
| [サンプリングの種類の選択] ページ (Excel 用データ マイニング クライアント) | 外部データ ソースを使用する場合は、ランダム サンプリング オプションの使用に制限されます。 また、[行数] オプションを使用して、最終的なデータ セットに作成する 行 数を指定する必要があります。 ソース データの割合を指定することはできません。 |
| [ランダム サンプリング] ページ (Excel 用データ マイニング クライアント) | ソースから行の割合をコピーすることも、特定の数の行をコピーすることもできます。 |
| [オーバーサンプリング] ページ (Excel 用データ マイニング クライアント) |
ターゲットの状態 元のデータ セットに過小表示されている値を一覧から選択します。 オーバーサンプリングにより、この状態を含むデータ行の割合が増加します。 サンプル サイズ 抽出する行の合計数を選択します。 この値は、最終的なデータ セットのサイズを表します。 |
その他のサンプリング オプション
このウィザードのサンプリング オプションがニーズを満たしていない場合は、SQL Server Integration Services (SSIS) のサンプリング変換を使用して、複数のデータ ソースの行をサンプリングできます。
詳細については、「 行サンプリング変換 」および「 比率サンプリング変換」を参照してください。