使用 t-Test 進行測試假設
重要
Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning。
自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。
ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。
使用 t-test 比較兩個數據行中的方法
類別: 統計函數
模組概觀
本文說明如何在 機器學習 Studio中使用 t-Test 測試模組 (傳統) ,以產生三種 t 測試類型的分數:
- 單一樣本 T 檢定
- 配對 T 檢定
- 非成對 T 檢定
一般而言,t 測試,協助您比較是否兩個群組有不同的方法。 例如,假設您正在為病患已藥物 A 收到病患已收到藥物 B 人與人評估試用版的資料,而您需要比較這兩個群組的復原速率度量。 虛無假設假設復原速率是相同的兩個群組,並另外復原速率的值中都有常態分佈的兩個群組。
藉由使用 「測試假設使用 t-Test」 ,並提供包含復原率作為輸入的資料行,您可以取得分數來指出差異是否有意義,這表示應該拒絕虛無假設。 測試,會將帳戶因素,例如有多大的差異在於之間的值,此範例的大小 (較大是較佳),而且有多大標準差 (較低是較佳)。
藉由檢閱 測試假設使用 t-Test 模組的結果,您可以判斷虛無假設為 TRUE 或 FALSE,並檢閱來自 t-test 的信賴 (P) 分數。
如何選擇 t-test
在這些條件適用時,請選擇 單一範例 t 測試 :
您只有單一的分數樣本。
所有分數彼此無關。
xˉ 的抽樣分布為常態。
一般而言,單一範例 t 測試用來比較為已知的數字的平均值。
在這些條件適用時,請選擇 配對的 t-test :
您有相符的分數配對。 例如,每一個人或相符的個人 (如丈夫與妻子) 配對可能會有兩個不同的量值。
每一對分數彼此無關。
d 的取樣分佈是正常的。
當比較相關的情況下,配對的 t 測試很有用。 方法是平均化分數的配對案例之間的差異,您可以決定總差異是統計上明顯。
在這些條件適用時,請選擇 未配對的 t-test :
您有兩個獨立的範例的分數。 也就是,樣本 1 的配對分數與樣本 2 的配對分數沒有基礎)。
一個樣本內的所有分數與該樣本內的其他所有分數彼此無關。
x1- x2 的取樣分佈正常。
(選擇性) 滿足各組之間的變異數大致相等的條件。
如何使用 t-Test 設定測試假設
使用單一資料集作為輸入。 您比較的資料行必須位於相同的資料集中。
如果您需要比較來自不同資料集的資料行,您可以使用 [選取資料集中的資料行] 來隔離每個要比較的資料行,然後使用 [加入資料行] 將它們合併成一個資料集。
將使用 t-Test 的測試假設模組新增至您的實驗。
您可以在 Studio 的 [統計函數 ] 類別中找到此課程模組, (傳統) 。
新增包含您要分析之資料行或資料行的資料集。
決定哪一種 t-test 適合您的資料。 請參閱 如何選擇 t-test。
單一範例:如果您使用單一範例,請設定下列參數:
Null 假設化μ:輸入要作為樣本之 Null 假設平均值的值。 這會指定要測試樣本平均數的預期平均值。
目標資料行:使用資料行選取器來選擇單一數值資料行進行測試。
假設類型:選擇單尾或雙尾測試。 預設值是雙尾檢定。 這是最常見的檢定類型,其中預期的分佈是以零為中心的對稱。
One Tail GT選項適用于大於測試的單尾。 這項測試提供更多能力,讓您在一個方向偵測效果,而不是以另一個方向測試效果。
One Tail LT選項提供一尾小於測試。
α:指定信賴因數。 這個值是用來評估 P 的值, (模組的第一個輸出) 。 如果 p 低於信賴因數,則會拒絕虛無假設。
PairedSamples:如果您要比較來自相同母體擴展的兩個樣本,請設定下列參數:
Null 假設μ:輸入值,代表樣本組之間的樣本差異。
目標資料行:使用 [資料行選取器] 選擇要測試的兩個數值資料行。
假設類型:選取一尾或雙尾測試。 預設值是雙尾檢定。
α:指定信賴因數。 這個值是用來評估 P 的值 (模組的第一個輸出, >) 如果 p 低於信賴因數,則會拒絕虛無假設。
UnpairedSamples:如果您比較兩個未配對的樣本,請設定下列參數:
- 假設相等變異數:當樣本來自不同母體時,請取消選取此選項。
- Null 假設的 HTTP1:輸入第一個資料行的平均值。
- Null 假設的 HTTP2:輸入第二個數據行的平均值。
- 目標資料行:使用 [資料行選取器] 選擇要測試的兩個數值資料行。
- 假設類型:指出測試為一尾或雙尾。 預設值是雙尾檢定。
- α:指定信賴因數。 這個值是用來評估 P 的值 (模組的第一個輸出, >) 如果 p 低於信賴因數,則會拒絕虛無假設。
執行實驗。
結果
模組的輸出是包含 t-test 分數的資料集,以及您可以選擇性地儲存以使用 套用轉換重新套用至此資料集或其他資料集的轉換。
分數的資料集包含這些值,不論您使用的 t 測試類型為何:
- 指出虛無假設信賴度的機率計分
- 指出是否應該拒絕虛無假設的值
提示
請記住,目標是判斷您是否可以拒絕虛無假設。 分數 0 不表示您應該接受虛無假設:這表示您沒有足夠的資料,而且需要進一步調查。
技術說明
模組會根據下列慣例自動將輸出資料行命名,這取決於選取的 t 檢定類型,以及結果是拒絕或接受虛無假設假設。
指定名稱 {0} 為 和 {1} 的輸入資料行,模組會建立下列名稱:
資料行 | SingleSampleSet | PairedSamples | UnpairedSamples |
---|---|---|---|
輸出資料行 P | {0}P_ss () | {0}P_ps (、 {1}) | {0}P_us (、 {1}) |
輸出資料行RejectH0 | RejectH0_ss ({0}) 」 | {0}RejectH0_ps (、 {1}) | {0}RejectH0_us (、 {1}) |
如何計算分數
此模組會計算並使用樣本標準差;因此,方程式會在分母中使用 (n-1)
。
計算單一範例測試的分數
假設有分數的單一取樣,彼此完全獨立並以常態分佈,則分數的計算方式如下:
請採用下列輸入:
- 資料集中單一資料行的值
- 虛無假設 (H0) 參數 μ0
- α 所指定的信賴分數
擷取 n 個) (樣本數目。
計算樣本資料的平均值。
計算樣本資料 () 的標準差。
計算 df (df) 的 t 和自由度:
使用 t 和 df 從散發資料表 T 擷取機率 P。
計算配對 t 測試的分數
假設有一組相符的分數,每一對彼此獨立,而在每一組中為常態分佈,分數的計算方式如下:
請採用下列輸入:
- 資料集中兩個資料行的值
- (H0) 參數 d0 的虛無假設
- α 所指定的信賴分數
擷取 n 個) (部分樣本組。
計算樣本資料的差異平均值:
計算 sd) (差異的標準差。
計算 t 和自由度 (df) :
使用 t 和 df 從散發資料表 (T) 擷取 p) (機率 (P。
計算未配對 t 測試的分數
假設有兩個獨立的分數樣本,每個樣本中有常態分佈的值,此分數的計算方式如下:
請採用下列輸入:
- 包含兩個資料行的
doubles
的資料集 - (H0) 參數 (d0)
- α 所指定的信賴分數
- 包含兩個資料行的
擷取每個群組中的數個樣本 n1 和 n2。
計算每個樣本集的平均值。
將每個群組的標準差計算為 s1 和 s2。
計算 df (df) 的 t 和自由度:
(選擇性) 滿足各組之間的變異數大致相等的條件:
先計算綜合標準差:
如果沒有任何有關變異數相等的假設,計算方式如下所示:
使用 t 和 df 從散發資料表擷取 P (T) 。
計算虛無假設
指定為 P 的虛無假設機率會計算如下:
如果 P < α,請將 [拒絕] 旗標設定為 True。
如果 P ≥ α,請將 [拒絕] 旗標設定為 False。
預期的輸入
名稱 | 類型 | 描述 |
---|---|---|
資料集 | 資料表 | 輸入資料集 |
模組參數
名稱 | 範圍 | 類型 | 預設 | 描述 |
---|---|---|---|---|
假設類型 | 任意 | 假設 | 雙尾 | Student T 檢定虛無假設類型 |
虛無假設 μ | 任意 | Float | 0.0 | 在單一樣本 t 檢定中,此樣本的虛無假設平均值 在配對 t 檢定中,樣本差異 |
目標資料行 | 任意 | ColumnSelection | 無 | 目標資料行選取模式 |
假設相等變異數 | 任意 | 布林值 | True | 假設兩個樣本的變異數相等 只適用於非成對的樣本 |
虛無假設 μ1 | 任意 | Float | 0.0 | 第一個樣本的虛無假設平均數 |
α | [0.0;1.0] | Float | 0.95 | 信賴因子 (如果 P 小於信賴因子,則拒絕虛無假設) |
輸出
名稱 | 類型 | 描述 |
---|---|---|
P | 資料表 | 指出虛無假設信賴度的機率計分 |
拒絕 H0 | 資料表 | 用以指出是否應該拒絕虛無假設的值 |
例外狀況
例外狀況 | 描述 |
---|---|
錯誤 0003 | 如果一或多個輸入為 Null 或空白,就會發生例外狀況。 |
錯誤 0008 | 如果參數不在範圍內,就會發生例外狀況。 |
錯誤 0017 | 如果一或多個指定的資料行具有目前的模組不支援的型別,就會發生例外狀況。 |
錯誤 0020 | 如果傳遞給模組的某些資料集的資料行數目太少,就會發生例外狀況。 |
錯誤 0021 | 如果傳遞給模組的某些資料集的資料列數目太少,就會發生例外狀況。 |
錯誤 0031 | 如果資料行集的資料行數目少於所需,就會發生例外狀況。 |
錯誤 0032 | 如果引數不是數字,就會發生例外狀況。 |
錯誤 0033 | 如果引數無限大,就會發生例外狀況。 |
如需 Studio (傳統) 模組特有的錯誤清單,請參閱錯誤碼機器學習。
如需 API 例外狀況的清單,請參閱機器學習 REST API 錯誤碼。