Share via


使用 t-Test 進行測試假設

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

使用 t-test 比較兩個數據行中的方法

類別: 統計函數

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning設計工具中提供類似的拖放模組。

模組概觀

本文說明如何在 機器學習 Studio中使用 t-Test 測試模組 (傳統) ,以產生三種 t 測試類型的分數:

  • 單一樣本 T 檢定
  • 配對 T 檢定
  • 非成對 T 檢定

一般而言,t 測試,協助您比較是否兩個群組有不同的方法。 例如,假設您正在為病患已藥物 A 收到病患已收到藥物 B 人與人評估試用版的資料,而您需要比較這兩個群組的復原速率度量。 虛無假設假設復原速率是相同的兩個群組,並另外復原速率的值中都有常態分佈的兩個群組。

藉由使用 「測試假設使用 t-Test」 ,並提供包含復原率作為輸入的資料行,您可以取得分數來指出差異是否有意義,這表示應該拒絕虛無假設。 測試,會將帳戶因素,例如有多大的差異在於之間的值,此範例的大小 (較大是較佳),而且有多大標準差 (較低是較佳)。

藉由檢閱 測試假設使用 t-Test 模組的結果,您可以判斷虛無假設為 TRUE 或 FALSE,並檢閱來自 t-test 的信賴 (P) 分數。

如何選擇 t-test

在這些條件適用時,請選擇 單一範例 t 測試

  • 您只有單一的分數樣本。

  • 所有分數彼此無關。

  • xˉ 的抽樣分布為常態。

一般而言,單一範例 t 測試用來比較為已知的數字的平均值。

在這些條件適用時,請選擇 配對的 t-test

  • 您有相符的分數配對。 例如,每一個人或相符的個人 (如丈夫與妻子) 配對可能會有兩個不同的量值。

  • 每一對分數彼此無關。

  • d 的取樣分佈是正常的。

當比較相關的情況下,配對的 t 測試很有用。 方法是平均化分數的配對案例之間的差異,您可以決定總差異是統計上明顯。

在這些條件適用時,請選擇 未配對的 t-test

  • 您有兩個獨立的範例的分數。 也就是,樣本 1 的配對分數與樣本 2 的配對分數沒有基礎)。

  • 一個樣本內的所有分數與該樣本內的其他所有分數彼此無關。

  • x1- x2 的取樣分佈正常。

  • (選擇性) 滿足各組之間的變異數大致相等的條件。

如何使用 t-Test 設定測試假設

使用單一資料集作為輸入。 您比較的資料行必須位於相同的資料集中。

如果您需要比較來自不同資料集的資料行,您可以使用 [選取資料集中的資料行] 來隔離每個要比較的資料行,然後使用 [加入資料行] 將它們合併成一個資料集。

  1. 將使用 t-Test 的測試假設模組新增至您的實驗。

    您可以在 Studio 的 [統計函數 ] 類別中找到此課程模組, (傳統) 。

  2. 新增包含您要分析之資料行或資料行的資料集。

  3. 決定哪一種 t-test 適合您的資料。 請參閱 如何選擇 t-test

  4. 單一範例:如果您使用單一範例,請設定下列參數:

    • Null 假設化μ:輸入要作為樣本之 Null 假設平均值的值。 這會指定要測試樣本平均數的預期平均值。

    • 目標資料行:使用資料行選取器來選擇單一數值資料行進行測試。

    • 假設類型:選擇單尾或雙尾測試。 預設值是雙尾檢定。 這是最常見的檢定類型,其中預期的分佈是以零為中心的對稱。

      One Tail GT選項適用于大於測試的單尾。 這項測試提供更多能力,讓您在一個方向偵測效果,而不是以另一個方向測試效果。

      One Tail LT選項提供一尾小於測試。

    • α:指定信賴因數。 這個值是用來評估 P 的值, (模組的第一個輸出) 。 如果 p 低於信賴因數,則會拒絕虛無假設。

  5. PairedSamples:如果您要比較來自相同母體擴展的兩個樣本,請設定下列參數:

    • Null 假設μ:輸入值,代表樣本組之間的樣本差異。

    • 目標資料行:使用 [資料行選取器] 選擇要測試的兩個數值資料行。

    • 假設類型:選取一尾或雙尾測試。 預設值是雙尾檢定。

    • α:指定信賴因數。 這個值是用來評估 P 的值 (模組的第一個輸出, >) 如果 p 低於信賴因數,則會拒絕虛無假設。

  6. UnpairedSamples:如果您比較兩個未配對的樣本,請設定下列參數:

    • 假設相等變異數:當樣本來自不同母體時,請取消選取此選項。
    • Null 假設的 HTTP1:輸入第一個資料行的平均值。
    • Null 假設的 HTTP2:輸入第二個數據行的平均值。
    • 目標資料行:使用 [資料行選取器] 選擇要測試的兩個數值資料行。
    • 假設類型:指出測試為一尾或雙尾。 預設值是雙尾檢定。
    • α:指定信賴因數。 這個值是用來評估 P 的值 (模組的第一個輸出, >) 如果 p 低於信賴因數,則會拒絕虛無假設。
  7. 執行實驗。

結果

模組的輸出是包含 t-test 分數的資料集,以及您可以選擇性地儲存以使用 套用轉換重新套用至此資料集或其他資料集的轉換。

分數的資料集包含這些值,不論您使用的 t 測試類型為何:

  • 指出虛無假設信賴度的機率計分
  • 指出是否應該拒絕虛無假設的值

提示

請記住,目標是判斷您是否可以拒絕虛無假設。 分數 0 不表示您應該接受虛無假設:這表示您沒有足夠的資料,而且需要進一步調查。

技術說明

模組會根據下列慣例自動將輸出資料行命名,這取決於選取的 t 檢定類型,以及結果是拒絕或接受虛無假設假設。

指定名稱 {0} 為 和 {1} 的輸入資料行,模組會建立下列名稱:

資料行 SingleSampleSet PairedSamples UnpairedSamples
輸出資料行 P {0}P_ss () {0}P_ps (、 {1}) {0}P_us (、 {1})
輸出資料行RejectH0 RejectH0_ss ({0}) 」 {0}RejectH0_ps (、 {1}) {0}RejectH0_us (、 {1})

如何計算分數

此模組會計算並使用樣本標準差;因此,方程式會在分母中使用 (n-1)

計算單一範例測試的分數

假設有分數的單一取樣,彼此完全獨立並以常態分佈,則分數的計算方式如下:

  1. 請採用下列輸入:

    • 資料集中單一資料行的值
    • 虛無假設 (H0) 參數 μ0
    • α 所指定的信賴分數
  2. 擷取 n 個) (樣本數目。

  3. 計算樣本資料的平均值。

  4. 計算樣本資料 () 的標準差。

  5. 計算 df (df) 的 t 和自由度:

    Formula for degrees of freedom

  6. 使用 t 和 df 從散發資料表 T 擷取機率 P。

計算配對 t 測試的分數

假設有一組相符的分數,每一對彼此獨立,而在每一組中為常態分佈,分數的計算方式如下:

  1. 請採用下列輸入:

    • 資料集中兩個資料行的值
    • (H0) 參數 d0 的虛無假設
    • α 所指定的信賴分數
  2. 擷取 n 個) (部分樣本組。

  3. 計算樣本資料的差異平均值:

    formula for mean of differences

  4. 計算 sd) (差異的標準差。

  5. 計算 t 和自由度 (df) :

    Formula for degrees of freedom df

  6. 使用 t 和 df 從散發資料表 (T) 擷取 p) (機率 (P。

計算未配對 t 測試的分數

假設有兩個獨立的分數樣本,每個樣本中有常態分佈的值,此分數的計算方式如下:

  1. 請採用下列輸入:

    • 包含兩個資料行的 doubles 的資料集
    • (H0) 參數 (d0)
    • α 所指定的信賴分數
  2. 擷取每個群組中的數個樣本 n1 和 n2。

  3. 計算每個樣本集的平均值。

  4. 將每個群組的標準差計算為 s1 和 s2。

  5. 計算 df (df) 的 t 和自由度:

(選擇性) 滿足各組之間的變異數大致相等的條件:

  1. 先計算綜合標準差:

    formula for pooled standard distribution

  2. 如果沒有任何有關變異數相等的假設,計算方式如下所示:

    formula for pooled standard deviation

  3. 使用 t 和 df 從散發資料表擷取 P (T) 。

計算虛無假設

指定為 P 的虛無假設機率會計算如下:

  • 如果 P < α,請將 [拒絕] 旗標設定為 True。

  • 如果 P ≥ α,請將 [拒絕] 旗標設定為 False。

預期的輸入

名稱 類型 描述
資料集 資料表 輸入資料集

模組參數

名稱 範圍 類型 預設 描述
假設類型 任意 假設 雙尾 Student T 檢定虛無假設類型
虛無假設 μ 任意 Float 0.0 在單一樣本 t 檢定中,此樣本的虛無假設平均值

在配對 t 檢定中,樣本差異
目標資料行 任意 ColumnSelection 目標資料行選取模式
假設相等變異數 任意 布林值 True 假設兩個樣本的變異數相等

只適用於非成對的樣本
虛無假設 μ1 任意 Float 0.0 第一個樣本的虛無假設平均數
α [0.0;1.0] Float 0.95 信賴因子 (如果 P 小於信賴因子,則拒絕虛無假設)

輸出

名稱 類型 描述
P 資料表 指出虛無假設信賴度的機率計分
拒絕 H0 資料表 用以指出是否應該拒絕虛無假設的值

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0008 如果參數不在範圍內,就會發生例外狀況。
錯誤 0017 如果一或多個指定的資料行具有目前的模組不支援的型別,就會發生例外狀況。
錯誤 0020 如果傳遞給模組的某些資料集的資料行數目太少,就會發生例外狀況。
錯誤 0021 如果傳遞給模組的某些資料集的資料列數目太少,就會發生例外狀況。
錯誤 0031 如果資料行集的資料行數目少於所需,就會發生例外狀況。
錯誤 0032 如果引數不是數字,就會發生例外狀況。
錯誤 0033 如果引數無限大,就會發生例外狀況。

如需 Studio (傳統) 模組特有的錯誤清單,請參閱錯誤碼機器學習

如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼

另請參閱

統計函數