データの集計

この記事では、Azure Machine Learning デザイナーのコンポーネントについて説明します。

Summarize Data (データの要約) コンポーネントを使用して、入力テーブル内の各列を記述する一連の標準的な統計的尺度を作成します。

要約統計は、完全なデータセットの特性を理解するのに役立ちます。たとえば、次のことを知る必要がある場合があります。

このコンポーネントは、各列の重要なスコアを計算し、入力として提供された各変数 (データ列) の要約統計の行を返します。

Summarize Data (データの要約) を構成する方法

Summarize Data (データの要約) コンポーネントをパイプラインに追加します。このコンポーネントは、デザイナーの [Statistical Functions]\(統計関数\) カテゴリにあります。
レポートを生成する対象のデータセットを接続します。

一部の列のみに関するレポートを作成する場合は、Select Columns in Dataset (データセット内の列の選択) コンポーネントを使用して、使用する列のサブセットを指定します。
追加のパラメーターは必要ありません。既定では、コンポーネントは入力として指定されたすべての列を分析し、列内の値の型に応じて、「結果」セクションで説明されているように、関連する統計のセットを出力します。
パイプラインを送信します。

コンポーネントからのレポートには、次の統計情報を含めることができます。

列名	説明
機能	列の名前
Count	すべての行の数
Unique Value Count (一意の値の数)	列内の一意の値の数
Missing Value Count (欠損値の数)	列内の一意の値の数
Min (最小値)	列内の最小値
Max (最大値)	列内の最大値
Mean (平均値)	すべての列値の平均値
Mean Deviation (平均偏差)	列値の平均偏差
1st Quartile (第 1 四分位数)	第 1 四分位数の値
中央値	中央の列値
3rd Quartile (第 3 四分位数)	第 3 四分位数の値
モード	列値のモード
Range	最大値と最小値の間の値の数を表す整数
Sample Variance (サンプル分散)	列の分散。注を参照。
Sample Standard Deviation (サンプル標準偏差)	列の標準偏差。注を参照。
Sample Skewness (サンプル歪度)	列の歪度。注を参照。
Sample Kurtosis (サンプル尖度)	列の尖度。注を参照。
P0.5	0.5% パーセンタイル
P1	1% パーセンタイル
P5	5% パーセンタイル
P95	95% パーセンタイル
P99.5	99.5% パーセンタイル

数値以外の列では、数、一意の値の数、欠損値の数の値のみが計算されます。他の統計では、null 値が返されます。
ブール値を含む列は、これらのルールを使用して処理されます。
- 最小の計算時には論理 AND が適用されます。
- 最大の計算時には論理 OR が適用されます。
- 範囲の計算時に、コンポーネントはまず、列の一意の値の数が 2 と等しいかどうかを確認します。
- 浮動小数点演算が必要なすべての統計の計算時には、True の値が 1.0、False の値が 0.0 として扱われます。

Azure Machine Learning で使用できる一連のコンポーネントを参照してください。