データの集計

この記事では、Azure Machine Learning デザイナーのコンポーネントについて説明します。

Summarize Data (データの要約) コンポーネントを使用して、入力テーブル内の各列を記述する一連の標準的な統計的尺度を作成します。

要約統計は、完全なデータセットの特性を理解するのに役立ちます。 たとえば、次のことを知る必要がある場合があります。

  • 各列で欠落している値の数はいくつあるか。
  • 特徴列にある一意の値の数はいくつか。
  • 各列の平均偏差と標準偏差はいくつか。

このコンポーネントは、各列の重要なスコアを計算し、入力として提供された各変数 (データ列) の要約統計の行を返します。

Summarize Data (データの要約) を構成する方法

  1. Summarize Data (データの要約) コンポーネントをパイプラインに追加します。 このコンポーネントは、デザイナーの [Statistical Functions]\(統計関数\) カテゴリにあります。

  2. レポートを生成する対象のデータセットを接続します。

    一部の列のみに関するレポートを作成する場合は、Select Columns in Dataset (データセット内の列の選択) コンポーネントを使用して、使用する列のサブセットを指定します。

  3. 追加のパラメーターは必要ありません。 既定では、コンポーネントは入力として指定されたすべての列を分析し、列内の値の型に応じて、「結果」セクションで説明されているように、関連する統計のセットを出力します。

  4. パイプラインを送信します。

結果

コンポーネントからのレポートには、次の統計情報を含めることができます。

列名 説明
機能 列の名前
Count すべての行の数
Unique Value Count (一意の値の数) 列内の一意の値の数
Missing Value Count (欠損値の数) 列内の一意の値の数
Min (最小値) 列内の最小値
Max (最大値) 列内の最大値
Mean (平均値) すべての列値の平均値
Mean Deviation (平均偏差) 列値の平均偏差
1st Quartile (第 1 四分位数) 第 1 四分位数の値
中央値 中央の列値
3rd Quartile (第 3 四分位数) 第 3 四分位数の値
モード 列値のモード
Range 最大値と最小値の間の値の数を表す整数
Sample Variance (サンプル分散) 列の分散。注を参照。
Sample Standard Deviation (サンプル標準偏差) 列の標準偏差。注を参照。
Sample Skewness (サンプル歪度) 列の歪度。注を参照。
Sample Kurtosis (サンプル尖度) 列の尖度。注を参照。
P0.5 0.5% パーセンタイル
P1 1% パーセンタイル
P5 5% パーセンタイル
P95 95% パーセンタイル
P99.5 99.5% パーセンタイル

テクニカル ノート

  • 数値以外の列では、数、一意の値の数、欠損値の数の値のみが計算されます。 他の統計では、null 値が返されます。

  • ブール値を含む列は、これらのルールを使用して処理されます。

    • 最小の計算時には論理 AND が適用されます。

    • 最大の計算時には論理 OR が適用されます。

    • 範囲の計算時に、コンポーネントはまず、列の一意の値の数が 2 と等しいかどうかを確認します。

    • 浮動小数点演算が必要なすべての統計の計算時には、True の値が 1.0、False の値が 0.0 として扱われます。

次のステップ

Azure Machine Learning で使用できる一連のコンポーネントを参照してください。