資料總結

本文針對 Azure Machine Learning 設計工具中的一個元件進行說明。

您可以使用「摘要資料」元件來建立一組標準統計量,以描述輸入資料表中的每個資料行。

當您想要瞭解完整資料集的特性,摘要統計資料會很實用。 例如,您可能需要知道:

  • 每個資料行中遺漏多少值?
  • 特徵資料行中有多少個唯一值?
  • 每個資料行的平均值和標準差為何?

元件會計算每個資料行的重要分數,並針對提供作為輸入的每個變數 (資料資料行) 傳回摘要統計的資料列。

如何設定摘要資料

  1. 「摘要資料」 元件新增至您的管線。 您可以在設計工具中的統計函式類別中找到此元件。

  2. 連線您想要產生報表的資料集。

    如果您只需要某些資料行的報表,請使用 「選取資料集中的資料行」元件,以預測要使用的資料行子集。

  3. 不需要任何其他參數。 依預設,此元件會分析提供作為輸入的所有資料行,並根據資料行中值的型別,輸出一組相關的統計資料,如結果一節所述。

  4. 提交管線。

結果

元件中的報表可以包含下列統計資料。

資料行名稱 描述
功能 資料行名稱
Count 所有資料列的計數
唯一值計數 資料行中唯一值的數目
遺漏值計數 資料行中唯一值的數目
Min 資料行中的最小值
Max 資料行中的最大值
平均數 所有資料行值的平均值
標準差 資料行值的平均偏差
第 1 四分位數 第一個四分位數的值
Median 中位數資料行值
第 3 四分位數 第三個四分位數的值
模式 資料行值的眾數
範圍 整數,代表最大值與最小值之間的值數目
樣本變異數 資料行的變異數;請參閱附註
樣本標準差 資料行的標準差;請參閱附註
樣本偏態 資料行的偏態;請參閱附註
樣本峰態 資料行的峰態;請參閱附註
P0.5 0.5% 百分位數
P1 1 百分位數
P5 5 百分位數
P95 95 百分位數
P99.5 99.5 百分位數

技術說明

  • 針對非數值資料行,只會計算計數、唯一值計數和遺漏值計數。 至於其他統計資料,則傳回 null 值。

  • 系統會使用以下值處理包含布林值的資料行:

    • 計算 Min 時,套用邏輯 AND。

    • 計算 Max 時,套用邏輯 OR

    • 計算「範圍」時,元件會先檢查資料行中的唯一值數目是否等於 2。

    • 在計算需要浮點計算的任何統計資料,True 值視為 1.0,False 值視為 0.0。

後續步驟

請參閱 Azure Machine Learning 可用的元件集