計算基本統計資料

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

針對選取的資料集資料行計算指定摘要統計資料

Category: 統計函數

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文描述如何使用機器學習 Studio (傳統) 中的 [計算基本統計資料]模組,為資料集產生摘要報告,其中列出索引鍵統計資料,例如平均值、標準差,以及每個所選資料行的值範圍。

此報表可用來分析資料的集中趨勢、離散和形狀。

如何設定計算基本統計資料

  1. 計算基本統計資料 模組新增至您的實驗。 您可以在機器學習 Studio (傳統) 的統計函數類別中找到此模組。

  2. 連線資料集,其中包含您想要分析的資料行。

  3. 按一下 [ 方法 ] 下拉式清單,然後選擇您想要為每個資料行計算的數值型別。

    如需可用統計資料的完整清單以及它們的意義,請參閱 支援的統計資料 一節。

  4. 根據預設,您在 [ 方法 ] 下拉式清單中選取的值,將會針對資料集內具有數值資料類型的所有資料行來計算。 如果有任何資料行有防止計算值的值,將會引發錯誤,而且不會建立報表。

    若要避免這個錯誤,請使用資料行選取器來挑選您要報告的數值資料行。 您選擇的所有資料行都必須是數值。

  5. 執行實驗。

結果

產生的報表包含每個資料行的名稱,以及已計算的統計資料。 例如,下表顯示針對 mpg 資料行產生的統計資料。

DeviationSquared (mpg) 最大 (mpg) 最小 (mpg)
9674.312 25.21951 13

提示

每次您執行 計算基本統計資料時,它只會針對每個選取的資料行產生單一摘要統計資料。 不過,您可以使用 [ 加入 資料行] 或 [ 加入 資料列] 模組,將結果合併成單一資料表,如上述範例所示。

支援的統計資料

此模組支援下列標準描述性統計資料。

平方差

計算資料行值的 平方偏差 。 也稱為平方的總和。

平方差是值與平均值分散程度的量值。

幾何平均數

計算資料行值的 幾何平均值

幾何平均值可以用來測量一組數位的集中趨勢。 相較于算術平均數,較少的極端值不會受到影響。 它也可以用來比較不同刻度的度量,因為它會有效地標準化所比較的數位比例。 幾何表示有時候會用來預估複合年度成長率。

Excel 中的對等函數為 GEOMEAN。

調和平均數

計算資料行值的 調和平均數

若要計算調和平均數,所有值都會轉換成其 reciprocals,然後會採用這些值的平均值。 調和平均值是該平均值的倒數。 如果資料行的值是正數,則較大的數位會加權小於較小的數位。

調和平均值永遠小於幾何平均數,一律小於算術平均值。 調和平均值適用于平均表示速率的變數,例如隨時間變化的速度 (距離) 或每季的銷售額。

Excel 中的對等函數為 HARMEAN。

內四分位距離

計算資料行值的第一個和最後一個分量interquartile 差異。 也稱為 四位數範圍。 當四個位數介於兩個數字之間時,四分四個值就是剪下兩側兩個值的平均值。

四分四值會將值的資料行分割成具有相等值數目的四個群組。 因此,一季的值會小於或等於25個百分位數。 值的三季小於或等於75個百分位數。 藉由查看四個四個範圍,您就可以瞭解如何將資料值分散到很大的範圍。

第 K 個中心動差

計算資料行值的 第 K 個中心時刻

計算第 K 個中心時,您也必須指定 順序,亦即 k 的值。 K 值的範圍可以從0到任何允許的整數值,但較高的順序值通常沒有意義。

一般來說,在描述性統計資料中,時間是描述一組點形狀的量值。 中央時間與平均值相關,通常是因為它們提供分佈形狀的更佳資訊。 2的順序通常代表變異數;5的順序用於峰。 第一個訂單時間是平均值。 因此,所有時刻的集合都會唯一描述資料行中的值分佈。

最大值

尋找資料行中的 最大值

平均數

計算資料行值的 算術平均值

Excel 中的對等函數是 AVERAGE。

標準差

計算資料行值的 平均絕對偏差

也就是說,計算資料行的平均值,以及計算資料行中每個值的偏差。 個別偏差值的絕對值平均值是平均偏差。

此統計資料會告訴您如何從數位資料行的平均值中散佈。

Median

傳回資料行值的中 位數

中間值是數位資料行中間的數位。 如果資料行中有偶數數目的數位,中間值就是兩個數字的平均值。

中間值和 平均值模式是測量中央趨勢的三個統計資料之一。 如果值對稱平均,則這三個數字會是相同的。 不過,中位數比 mean 更健全。

中位差

計算資料行的中 位數偏差

也就是說,會計算資料行的中位數,並針對資料行中的每個值計算出偏差。 取得個別偏差值之絕對值的中位數值。

中間值絕對偏差也稱為 MAD,可用來描述數位範例的變化性。 MAD 會告訴您如何從數位資料行的平均值來散佈。

最小值

傳回資料行值的 最小值

[模式]

尋找資料行的所有 模式

此模式是最常出現在資料行中的值。 如果有數個值出現相同的次數,資料行可以有多個模式。

作為趨量的量值,模式比平均值更健全,而且也可以與名義資料搭配使用。

母體標準差

計算資料行值的 人口標準差

此統計資料會假設資料行值代表整個人口。 如果您的資料只是人口的範例,您必須使用 範例標準差來計算標準差。 不過,在大型資料集中,這兩個統計資料會傳回大約相等的值。

標準差會計算為數據行變異數的平方根。 此統計資料會在資料行中捕捉變化量。

母體擴展變異數

計算資料行值的 人口 變異數。

變異數會測量一組數位分佈的程度。如果變異數為零,則所有數位都相同。

此統計資料會假設值的資料行代表整個擴展。 如果您的資料只包含值的範例,您應該使用 樣本變異數來計算變異數。

對等的 Excel 函數是 VAR.P

產品

計算資料行元素的 乘積

若要取得產品,您必須在資料行中有多個數位。 結果本身並不是有用的描述性統計資料,但函數適用于各種其他計算。

範圍

計算資料行值的 範圍 。 範圍定義為最大值減去最小值

樣本峰態

計算資料行值的 樣本峰

結果會描述值分佈的形狀,也就是尖峰或平面分佈的值與一般分佈的比較方式。

  • 一般分佈的峰值為0。

  • 高尖峰值表示機率的大括弧是圍繞尖峰或分佈的結尾。

  • 負峰值表示相對的分佈。

樣本偏態

計算資料行值的不 對稱度樣本

扭曲描述大量值是否位於中央、向左移位或向右移動。 兩個分佈可能具有相同的平均值和標準差,但成形的方式非常不同。 您可以使用不對稱和峰值來描繪圖形的特性。

  • 負誤差值表示分佈會扭曲至左方。

  • 0表示正常分佈。

  • 正面偏斜值表示分佈會扭曲至右邊。

樣本標準差

計算資料行值的 樣本標準差

範例的標準差會測量資料行中的值如何從平均值中散佈。 它代表集合中的資料值與平均值之間的平均距離。

此統計資料會假設資料行值代表人口的樣本。 如果您的資料代表整個人口,您必須使用 人口標準差來計算標準差。

對等的 Excel 函數是 ST。開發人員。

樣本變異數

計算資料行值的 樣本 變異數。

這個方法會假設資料行值代表人口的樣本。 如果資料行包含整個人口,您應該使用 人口標準變異數。

對等的 Excel 函數是 VAR。

Sum

計算資料行值的 總和

範例

Azure AI 資源庫中的下列實驗會示範如何建立摘要報表,其中包含整個資料集的描述性統計資料。 摘要報表僅包含一般統計資料;不過,您可以將它儲存為資料集,然後使用 [ 計算基本統計資料]中的選項來新增更詳細的統計資料。

技術說明

本節包含實作詳細資料、提示和常見問題集的解答。

提示

使用 計算基本統計資料 模組時,必須滿足下列條件:

  • 您必須有足夠的資料點數目 (資料列) 計算選取的統計資料。 例如,若要計算 範例標準差 ,至少需要兩個資料點;否則,結果為 NaN。
  • 輸入資料行必須是數值或布林值。

預設會選取所有數值資料行。 但是,如果有任何數值資料行標示為類別,您可能會收到下列錯誤:「錯誤0056:名稱 < 資料行名稱 > 的資料行不在允許的類別中」。若要更正錯誤,請新增 [ 編輯中繼資料 ] 模組的實例、選取具有問題的資料行,然後使用 [ 移除類別] 選項。

實作詳細資料

布林資料行的處理方式如下:

  • MIN 以邏輯 AND 來計算。

  • MAX 以邏輯 OR 來計算。

  • RANGE 會檢查資料行中的唯一值數目是否等於 2。

  • 遺漏值會被忽略。

  • 在需要浮點計算的統計資料中,True = 1.0 而 False = 0.0

預期的輸入

名稱 類型 說明
資料集 資料表 輸入資料集

模組參數

名稱 範圍 類型 預設 描述
方法 List 基本統計方法 選取要在計算中使用的統計方法。 請參閱如何使用區段來取得值清單。
資料行集 任意 ColumnSelection NumericAll 選取要計算統計資料的資料行
順序 >=1 整數 3 指定「中央時間順序」的值, (只用于 kth 中部)

輸出

名稱 類型 說明
結果資料集 資料表 輸出資料集

例外狀況

例外狀況 描述
錯誤 0017 如果一或多個指定的資料行具有目前的模組不支援的型別,就會發生例外狀況。

如需 Studio (傳統) 模組特定的錯誤清單,請參閱機器學習錯誤碼

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

統計函數
基本
摘要資料
A-Z 模組清單