Hipotézis tesztelése t-test használatával

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learning való áthelyezéséről olvashat.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Két oszlopból származó eszközöket hasonlít össze t-teszt használatával

Kategória: Statisztikai függvények

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Test Hypothesis Using t-Test modul a Machine Learning Studio (klasszikus) alkalmazásban három típusú t-teszt pontszámainak létrehozásához:

Egymintás t-teszt
Párosított t-teszt
Ki nem fizetett t-teszt

A t-teszt általában segít összehasonlítani, hogy két csoportnak vannak-e különböző eszközei. Tegyük fel például, hogy az A kábítószert kapó betegek és a B kábítószert kapott betegek vizsgálati adatait értékeli, és mindkét csoport helyreállítási arányának metrikáit össze kell hasonlítania. A nullhipotézis feltételezi, hogy a helyreállítási arány mindkét csoportban megegyezik, továbbá azt is, hogy a helyreállítási arány értékeinek normális eloszlása mindkét csoportban megegyezik.

A t-Test használatával és a helyreállítási arányokat bemenetként tartalmazó oszlopok megadásával olyan pontszámokat kaphat, amelyek jelzik, hogy a különbség értelmes-e, ami azt jelenti, hogy a nullhipotézist el kell utasítani. A vizsgálat olyan tényezőket vesz figyelembe, mint például hogy mekkora a különbség az értékek között, a minta mérete (a nagyobb jobb), és hogy mekkora a szórás (alacsonyabb jobb).

A t-Test modullal végzett teszthipotézis eredményeinek áttekintésével megállapíthatja, hogy a nullhipotézis IGAZ vagy HAMIS, és áttekintheti a t-teszt megbízhatósági (P) pontszámait.

T-teszt kiválasztása

Válasszon egyetlen t-próbamintát , ha ezek a feltételek érvényesek:

Egyetlen pontszámmintával rendelkezik.
Minden pontszám független egymástól.
Az xˉ mintavételezési eloszlása normális.

Általánosságban elmondható, hogy az egyetlen t-próba egy átlagos érték és egy ismert szám összehasonlítására szolgál.

Az alábbi feltételek teljesülésekor válasszon párosított t-tesztet :

Egyező pontszámpárok vannak. Előfordulhat például, hogy személyenként két különböző mértékkel vagy egyező párokkal (például férj és feleség) rendelkezik.
Minden pontszámpár független minden más pártól.
A d mintavételezési eloszlása normális.

A párosított t-teszt hasznos a kapcsolódó esetek összehasonlítása során. A párosított esetek pontszámai közötti különbségek átlagolásával megállapíthatja, hogy a teljes különbség statisztikailag szignifikáns-e.

Válasszon ki nem fizetett t-tesztet , ha ezek a feltételek érvényesek:

Két független pontszámmintával rendelkezik. Ez azt jelzi, hogy az 1. mintában lévő pontszámok és a 2. mintában szereplő pontszámok párosításának nincs alapja.
A mintán belüli összes pontszám független a mintán belüli összes többi pontszámtól.
Az x1-x2 mintavételezési eloszlása normális.
Igény szerint megfelel annak a követelménynek, hogy a csoportok közötti eltérés nagyjából azonos legyen.

A hipotézis tesztelésének konfigurálása t-Test használatával

Használjon egyetlen adatkészletet bemenetként. Az összehasonlítandó oszlopoknak ugyanabban az adathalmazban kell lenniük.

Ha különböző adathalmazokból származó oszlopokat kell összehasonlítania, elkülönítheti az egyes oszlopokat az összehasonlításhoz az Adathalmaz oszlopainak kijelölése funkcióval, majd egyesítheti őket egy adathalmazba az Oszlopok hozzáadása funkcióval.

Adja hozzá a Test Hypothesis Using t-Test modult a kísérlethez.

Ezt a modult a Studio Statisztikai függvények kategóriájában találja (klasszikus).
Adja hozzá az elemezni kívánt oszlopot vagy oszlopokat tartalmazó adatkészletet.
Döntse el, hogy milyen típusú t-teszt felel meg az adatoknak. Lásd : T-teszt kiválasztása.
Egyetlen minta: Ha egyetlen mintát használ, állítsa be az alábbi paramétereket:
- Nullhipotézises μ: Írja be a minta nullhipotézises középértékeként használni kívánt értéket. Ez határozza meg azt a várható középértéket, amely alapján a minta középértéket tesztelni fogja.
- Céloszlop: Az Oszlopválasztóval egyetlen numerikus oszlopot választhat ki a teszteléshez.
- Hipotézis típusa: Válasszon egy egyszélű vagy kétszélű tesztet. Az alapértelmezett érték egy kétszélű teszt. Ez a leggyakoribb teszttípus, amelyben a várt eloszlás a nulla körüli szimmetrikus.
  
  A One Tail GT lehetőség egy egyszélű nagyobb, mint a teszt. Ez a teszt nagyobb teljesítményt nyújt a hatás észlelésére az egyik irányban, azáltal, hogy nem teszteli az effektust a másik irányban.
  
  A One Tail LT lehetőség egy egyszélű kevesebbet ad, mint a teszt.
- α: Adjon meg egy megbízhatósági tényezőt. Ez az érték a P (a modul első kimenete) értékének kiértékelésére szolgál. Ha a p kisebb, mint a megbízhatósági tényező, a nullhipotézis el lesz utasítva.
PairedSamples: Ha két mintát hasonlít össze ugyanabból a sokaságból, állítsa be az alábbi paramétereket:
- Nullhipotézises μ: Írjon be egy értéket, amely a mintapárok közötti különbséget jelöli.
- Céloszlop: Az Oszlopválasztóval válassza ki a tesztelni kívánt két numerikus oszlopot.
- Hipotézis típusa: Válasszon egy egyszélű vagy kétszélű tesztet. Az alapértelmezett érték egy kétszélű teszt.
- α: Adja meg a megbízhatósági tényezőt. Ez az érték a P értékének kiértékelésére szolgál (a modul első kimenete).> Ha a p kisebb a megbízhatósági tényezőnél, a nullhipotézist a rendszer elutasítja.
UnpairedSamples: Ha két ki nem fizetett mintát hasonlít össze, állítsa be a következő paramétereket:
- Azonos variancia feltételezése: Törölje a kijelölést, ha a minták különböző populációkból származnak.
- Nullhipotézisű μ1: Írja be az első oszlop középértékét.
- Nullhipotézisű μ2: Írja be a második oszlop középértékét.
- Céloszlopok: Az Oszlopválasztóval válasszon ki két numerikus oszlopot a teszteléshez.
- Hipotézis típusa: Azt jelzi, hogy a teszt egy- vagy kétszélű-e. Az alapértelmezett érték egy kétszélű teszt.
- α: Adja meg a megbízhatósági tényezőt. Ez az érték a P értékének kiértékelésére szolgál (a modul első kimenete).> Ha a p kisebb a megbízhatósági tényezőnél, a nullhipotézist a rendszer elutasítja.
Futtassa a kísérletet.

Results (Eredmények)

A modul kimenete egy adatkészlet, amely tartalmazza a t-teszt pontszámait, és egy átalakítás, amelyet szükség esetén menthet, hogy újra alkalmazza ezt vagy egy másik adathalmazt az Átalakítás alkalmazásával.

A pontszámok adathalmaza ezeket az értékeket tartalmazza, függetlenül a használt t-teszt típusától:

A nullhipotézis megbízhatóságát jelző valószínűségi pontszám
Egy érték, amely azt jelzi, hogy a nullhipotézist el kell-e utasítani

Tipp

Ne feledje, a cél annak meghatározása, hogy elutasítható-e a nullhipotézis. A 0 pontszám nem jelenti azt, hogy el kell fogadnia a nullhipotézist: ez azt jelenti, hogy nincs elég adata, és további vizsgálatot igényel.

Technikai megjegyzések

A modul a következő konvenciók alapján automatikusan elnevezi a kimeneti oszlopokat attól függően, hogy milyen típusú t-teszt lett kiválasztva, és hogy az eredmény a nullhipotézis elutasítása vagy elfogadása volt-e.

A megadott bemeneti oszlopok nevei {0} és {1}a modul a következő neveket hozza létre:

Oszlopok	SingleSampleSet	PairedSamples	Fizetés nélküliSamples
P kimeneti oszlop	P_ss({0})	P_ps({0}, {1})	P_us({0}; {1})
Output column RejectH0	RejectH0_ss({0})"	RejectH0_ps({0}, {1})	RejectH0_us({0}, {1})

A pontszámok kiszámítása

Ez a modul kiszámítja és felhasználja a minta szórását; ezért az egyenlet a nevezőben szerepel (n-1) .

Egymintás teszt számítási pontszámai

A pontszámok egy, egymástól független mintája és egy normál eloszlás alapján a pontszám kiszámítása az alábbiak szerint történik:

Adja meg a következő bemenetet:
- Az adathalmaz értékeinek egyetlen oszlopa
- A nullhipotézis (H0) μ0 paramétere
- A α által megadott megbízhatósági pontszám
A minták számának kinyerése (n).
Számítsa ki a mintaadatok középértékét.
A mintaadatok szórásának (szórásának) kiszámítása.
T és szabadságfok (df) kiszámítása:
A P valószínűség kinyerése a T eloszlástáblából t és df használatával.

Párosított t-teszt számítási pontszámai

A pontszámok egyező halmaza, a párok egymástól függetlenek és az egyes halmazok normál eloszlása a következőképpen lesz kiszámítva:

Adja meg a következő bemenetet:
- Két értékoszlop az adathalmazból
- A nullhipotézis (H0) d0 paramétere
- A α által megadott megbízhatósági pontszám
Nyerje ki néhány mintapár (n) számát.
Számítsa ki a mintaadatok különbségeinek középértékét:
Számítsa ki a különbségek szórását (sd).
Számítsa ki a t és a szabadságfokokat (df):
A valószínűség (P) kinyerése a eloszlástáblából (T) t és df használatával.

Ki nem fizetett t-teszt számítási pontszámai

Két független pontminta alapján, az értékek normális eloszlásával az egyes mintákban a pontszám kiszámítása az alábbiak szerint történik:

Adja meg a következő bemenetet:
- Egy adatkészlet, amely két oszlopot tartalmaz: doubles
- A nullhipotézis (H0) paraméter (d0)
- A α által megadott megbízhatósági pontszám
Nyerje ki az n1 és n2 csoport néhány mintáját.
Számítsa ki az egyes mintakészletek középértékét.
Számítsa ki az egyes csoportok szórását s1 és s2 értékként.
T és szabadságfok (df) kiszámítása:

Igény szerint megfelel annak a követelménynek, hogy a csoportok közötti eltérés nagyjából azonos legyen, az alábbiak szerint:

Először számítsa ki a készletezett szórást:
Ha nincs feltételezés a varianciaegyenlőségről, számítsa ki az alábbiakat:
P kinyerése a terjesztési táblából (T) t és df használatával.

A nullhipotézis kiszámítása

A P-ként megjelölt nullhipotézis valószínűségét a következőképpen számítjuk ki:

Ha P < α, állítsa az Elutasítás jelölőt Igaz értékre.
Ha A P ≥ α, állítsa az Elutasítás jelölőt False (Hamis) értékre.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Hipotézis típusa	Bármelyik	Hipotézis	Kétszélű	Student's t-test nullhipotézis típusa
Nullhipotézisű μ	Bármelyik	Float	0,0	Az egyetlen t-próba esetében a minta nullhipotézises középértékét A párosított t-próba esetében a mintakülönbség
Céloszlop(ok)	Bármelyik	ColumnSelection	None	Céloszlop(ok) kijelölési mintája
Egyenlő varianciák feltételezése	Bármelyik	Logikai	Igaz	Tegyük fel, hogy két minta varianciája egyenlő Csak a ki nem fizetett mintákra vonatkozik
Nullhipotézisű μ1	Bármelyik	Float	0,0	Nullhipotézis középérték az első mintához
Α	[0.0;1.0]	Float	0,95	Megbízhatósági tényező (ha A P kisebb a megbízhatósági tényezőnél, a nullhipotézis elutasítva)

Kimenetek

Név	Típus	Description
P	Adattábla	A nullhipotézis megbízhatóságát jelző valószínűségi pontszám
H0 elutasítása	Adattábla	Érték, amely azt jelzi, hogy a nullhipotézist el kell-e utasítani

Kivételek

Kivétel	Description
0003-os hiba	Kivétel akkor fordul elő, ha egy vagy több bemenet null értékű vagy üres.
0008-os hiba	Kivétel akkor fordul elő, ha a paraméter nincs a tartományban.
0017-s hiba	Kivétel akkor fordul elő, ha egy vagy több megadott oszlop olyan típussal rendelkezik, amelyet az aktuális modul nem támogat.
0020-ás hiba	Kivétel akkor fordul elő, ha a modulnak átadott adathalmazok némelyikében túl kicsi az oszlopok száma.
0021-s hiba	Kivétel akkor fordul elő, ha a modulnak átadott adathalmazok némelyikében túl kicsi a sorok száma.
0031-s hiba	Kivétel akkor fordul elő, ha az oszlopkészlet oszlopainak száma kisebb a szükségesnél.
0032-s hiba	Kivétel akkor fordul elő, ha az argumentum nem szám.
0033-os hiba	Kivétel akkor fordul elő, ha az argumentum végtelen.

A Studio (klasszikus) modulokkal kapcsolatos hibák listáját Machine Learning hibakódok között találja.

Az API-kivételek listájáért lásd Machine Learning REST API hibakódjait.

Lásd még

Statisztikai függvények

Megosztás a következőn keresztül: