資料總結
本文針對 Azure Machine Learning 設計工具中的一個元件進行說明。
您可以使用「摘要資料」元件來建立一組標準統計量,以描述輸入資料表中的每個資料行。
當您想要瞭解完整資料集的特性,摘要統計資料會很實用。 例如,您可能需要知道:
- 每個資料行中遺漏多少值?
- 特徵資料行中有多少個唯一值?
- 每個資料行的平均值和標準差為何?
元件會計算每個資料行的重要分數,並針對提供作為輸入的每個變數 (資料資料行) 傳回摘要統計的資料列。
如何設定摘要資料
將「摘要資料」 元件新增至您的管線。 您可以在設計工具中的統計函式類別中找到此元件。
連線您想要產生報表的資料集。
如果您只需要某些資料行的報表,請使用 「選取資料集中的資料行」元件,以預測要使用的資料行子集。
不需要任何其他參數。 依預設,此元件會分析提供作為輸入的所有資料行,並根據資料行中值的型別,輸出一組相關的統計資料,如結果一節所述。
提交管線。
結果
元件中的報表可以包含下列統計資料。
資料行名稱 | 描述 |
---|---|
功能 | 資料行名稱 |
Count | 所有資料列的計數 |
唯一值計數 | 資料行中唯一值的數目 |
遺漏值計數 | 資料行中唯一值的數目 |
Min | 資料行中的最小值 |
Max | 資料行中的最大值 |
平均數 | 所有資料行值的平均值 |
標準差 | 資料行值的平均偏差 |
第 1 四分位數 | 第一個四分位數的值 |
Median | 中位數資料行值 |
第 3 四分位數 | 第三個四分位數的值 |
模式 | 資料行值的眾數 |
範圍 | 整數,代表最大值與最小值之間的值數目 |
樣本變異數 | 資料行的變異數;請參閱附註 |
樣本標準差 | 資料行的標準差;請參閱附註 |
樣本偏態 | 資料行的偏態;請參閱附註 |
樣本峰態 | 資料行的峰態;請參閱附註 |
P0.5 | 0.5% 百分位數 |
P1 | 1 百分位數 |
P5 | 5 百分位數 |
P95 | 95 百分位數 |
P99.5 | 99.5 百分位數 |
技術說明
針對非數值資料行,只會計算計數、唯一值計數和遺漏值計數。 至於其他統計資料,則傳回 null 值。
系統會使用以下值處理包含布林值的資料行:
計算 Min 時,套用邏輯 AND。
計算 Max 時,套用邏輯 OR
計算「範圍」時,元件會先檢查資料行中的唯一值數目是否等於 2。
在計算需要浮點計算的任何統計資料,True 值視為 1.0,False 值視為 0.0。
後續步驟
請參閱 Azure Machine Learning 可用的元件集。