次の方法で共有


比率サンプリング変換

適用対象: SQL Server Azure Data Factory の SSIS Integration Runtime

比率サンプリング変換は、変換入力行の比率を選択することにより、サンプル データセットを作成します。 サンプル データセットとは、変換入力からランダムに行を選択し、その結果、入力のサンプルとなるデータセットのことです。

注意

比率サンプリング変換は、指定した比率に加え、サンプル出力に行を含めるかどうかを決定するアルゴリズムを使用します。 したがって、サンプル出力の行数は、指定した比率を正確に反映しない場合があります。 たとえば、25,000 行の入力データセットに対して 10% を指定した場合、2,500 行のサンプルが生成されず、サンプルの行がこの数を多少前後することがあります。

比率サンプリング変換は、特にデータ マイニングに役立ちます。 この変換を使用すると、データセットをランダムに 2 つのデータセットに分割できます。たとえば、1 つをデータ マイニング モデルの学習用に、もう 1 つはそのモデルのテスト用に分割します。

また、比率サンプリング変換は、パッケージ開発用のサンプル データセットを作成するうえで役立ちます。 比率サンプリング変換をデータ フローに適用すると、データの特性を保持したまま、データセットのサイズを一様に縮小できます。 したがって、テスト パッケージは、サイズは小さいが代表的なデータセットを使用するため、実行速度は速くなります。

比率サンプリング変換の構成

サンプリング シードを指定して、変換が行の選択に使用する乱数ジェネレーターの動作を変更できます。 同じサンプリング シードが使用される場合、この変換は、常に同じサンプル出力を作成します。 シードを指定しない場合、この変換はオペレーティング システムのティック数を使用して乱数を作成します。 したがって、パッケージの開発やテスト中に変換結果を確認する際は標準シードを使用するように選択し、パッケージの稼働時にはランダム シードを使用するように変更します。

この変換は、行サンプリング変換と同様です。ただし、行サンプリング変換は、指定する入力行数を選択してサンプル データセットを作成します。 詳細については、「 Row Sampling Transformation」を参照してください。

比率サンプリング変換には、 SamplingValue カスタム プロパティがあります。 このプロパティは、パッケージの読み込み時にプロパティ式で更新できます。 詳細については、「Integration Services (SSIS) の式」、「パッケージでプロパティ式を使用する」、および「変換のカスタム プロパティ」を参照してください。

この変換は、1 つの入力と 2 つの出力をとります。 エラー出力はサポートされていません。

プロパティを設定するには SSIS デザイナーから行うか、またはプログラムによって設定します。

[詳細エディター] ダイアログ ボックスには、プログラムによって設定できるプロパティが反映されます。 [詳細エディター] ダイアログ ボックスまたはプログラムで設定できるプロパティの詳細については、次のトピックのいずれかを参照してください。

プロパティの設定方法の詳細については、「 データ フロー コンポーネントのプロパティを設定する」を参照してください。

比率サンプリング変換エディター

[比率サンプリング変換エディター] ダイアログ ボックスを使用すると、指定された行の割合を使用して、入力の一部をサンプルに分割できます。 この変換は、入力を 2 つの別個の出力に分割します。

オプション

[行の割合]
サンプルとして使用する入力における行の割合を指定します。

このプロパティの値は、プロパティ式を使用して指定することができます。

[サンプル出力名]
サンプリングされた行を含める出力の一意な名前を指定します。 指定された名前は、 SSIS デザイナーに表示されます。

[選択されていない出力名]
サンプリングから除外された行を含む出力の一意な名前を指定します。 指定された名前は、 SSIS デザイナーに表示されます。

[次のランダム シードを使用する]
変換でサンプルを作成するために使用する乱数ジェネレーターのサンプリング シードを指定します。 このオプションは、開発およびテスト用にのみ使用することをお勧めします。 ランダム シードが指定されない場合は、Microsoft Windows のティック数が使用されます。