資料總結

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

針對資料集內的資料行產生基本描述性統計資料報告

Category: 統計函數

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文說明如何使用機器學習 Studio (傳統) 中的「摘要資料」模組來建立一組標準統計量值,以描述輸入資料表中的每個資料行。

當您想要瞭解完整資料集的特性時,這類摘要統計資料會很有用。 例如,您可能需要知道:

  • 每個資料行中遺漏多少值?
  • 特徵資料行中有多少個唯一值?
  • 每個資料行的平均值和標準差為何?

此模組會計算每個資料行的重要分數,並傳回每個變數 (資料行的摘要統計資料列,) 提供作為輸入。

提示

您可能已經知道可以使用 Studio (傳統) 中的 [ 視覺化 ] 選項來取得統計資料的簡短清單。 不過,此視覺效果是根據一些最上層的資料列來建立。 相反地, 摘要資料 模組會計算資料的所有資料列的統計資料。

如何使用摘要資料

  1. 摘要資料 模組新增至您的實驗。 您可以在 Studio (傳統) 的 統計函數 類別中找到此模組。

  2. 連線您想要產生報表的資料集。

    如果您只想要報告某些資料行,請使用 [ 資料集模組中的選取資料行 ] 來投影要使用的資料行子集。

  3. 不需要任何其他參數。 依預設,此模組會分析提供做為輸入的所有資料行,並根據資料行中的數值型別,輸出一組相關的統計資料,如 [ 結果 ] 區段中所述。

  4. 執行實驗,或以滑鼠右鍵按一下模組,然後選取 [ 執行選取的]。

結果

模組中的報表可以包含下列統計資料。

  • 產生的確切統計資料取決於資料行資料類型。 如需詳細資訊,請參閱 技術 提示一節。

  • 假設這些實例屬於擴展的代表性樣本。 如果您需要計算人口統計資料,請使用 計算基本統計資料 模組中的選項,此模組可以計算樣本或人口統計資料。

資料行名稱 描述
功能 資料行名稱
Count 所有資料列的計數
唯一值計數 資料行中唯一值的數目
遺漏值計數 資料行中唯一值的數目
Min 資料行中的最小值
Max 資料行中的最大值
平均數 所有資料行值的平均值
標準差 資料行值的平均偏差
第 1 四分位數 第一個四分位數的值
Median 中位數資料行值
第 3 四分位數 第三個四分位數的值
模式 資料行值的眾數
範圍 整數,代表最大值與最小值之間的值數目
樣本變異數 資料行的變異數;請參閱附註
樣本標準差 資料行的標準差;請參閱附註
樣本偏態 資料行的偏態;請參閱附註
樣本峰態 資料行的峰態;請參閱附註
P0.5 0.5% 百分位數
P1 1 百分位數
P5 5 百分位數
P95 95 百分位數
P99.5 99.5 百分位數

提示

將統計資料包表輸出為表格式資料集,讓您可以使用 BI 報表工具中的資料,或使用這些值做為實驗中另一項作業的輸入。

範例

如需如何在實驗中使用 摘要資料 模組的範例,請參閱 Azure AI 資源庫

  • 從 uci 下載資料集:使用 uci 機器學習存放庫中的 URL 讀取 CSV 格式的資料集,並產生一些有關資料集的基本統計資料。

  • 資料集處理和分析:將資料集載入工作區、變更資料行名稱,以及加入中繼資料。

  • 學生效能預測:從 Azure Blob 儲存體讀取以 TSV 格式儲存的資料。

技術說明

  • 若為數值和布林值資料行,您可以輸出平均值、中間值、模式和標準差。

  • 針對非數值資料行,只會計算計數唯一值計數遺漏值計數。 至於其他統計資料,則傳回 null 值。

  • 系統會使用以下值處理包含布林值的資料行:

    • 計算 Min 時,套用邏輯 AND。

    • 在計算 Max時,套用邏輯 OR

    • 計算「範圍」時,模組會先檢查資料行中的唯一值數目是否等於 2。

    • 在計算需要浮點計算的任何統計資料,True 值視為 1.0,False 值視為 0.0。

預期的輸入

名稱 類型 說明
資料集 資料表 輸入資料集

輸出

名稱 類型 說明
結果資料集 資料表 包含描述性統計資料的輸入資料集的設定檔

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入是 Null 或空白,就會發生例外狀況。
錯誤 0020 如果傳遞給模組的某些資料集的資料行數目太少,就會發生例外狀況。
錯誤 0021 如果傳遞給模組的某些資料集的資料列數目太少,就會發生例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

統計函數
計算基本統計資料