Sdílet prostřednictvím


Testovací hypotéza s využitím t-testu

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Porovnává prostředky ze dvou sloupců pomocí t-testu.

Kategorie: Statistické funkce

Poznámka

Platí pro: pouze Machine Learning Studio (classic)

Podobné moduly pro přetažení jsou dostupné v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje použití testovací hypotézy pomocí modulu t-Test v Machine Learning Studiu (classic) k vygenerování skóre pro tři typy t-testů:

  • Jeden ukázkový t-test
  • Spárovaný t-test
  • Nezaplacený t-test

Obecně platí, že t-test vám pomůže porovnat, jestli dvě skupiny mají různé prostředky. Předpokládejme například, že vyhodnocujete zkušební data pro pacienty, kteří dostávali lék A vs. pacienti, kteří dostávali lék B, a potřebujete porovnat metriku míry obnovení pro obě skupiny. Nulová hypotéza předpokládá, že míra obnovení je v obou skupinách stejná, a navíc, že hodnoty pro rychlost obnovení mají normální rozdělení v obou skupinách.

Pomocí testovací hypotézy pomocí t-Test a poskytnutím sloupců, které obsahují sazby obnovení jako vstup, můžete získat skóre, které označují, jestli je rozdíl smysluplný, což by značilo, že nulová hypotéza by měla být odmítnuta. Test bere v úvahu faktory, jako je například to, jak velký je rozdíl mezi hodnotami, velikost vzorku (větší je lepší) a jak velká je směrodatná odchylka (nižší je lepší).

Když si projdete výsledky testovací hypotézy pomocí modulu t-Test , můžete určit, jestli je nulová hypotéza PRAVDA nebo NEPRAVDA, a zkontrolovat skóre spolehlivosti (P) z t-testu.

Jak zvolit t-test

Pokud se použijí tyto podmínky, zvolte jeden ukázkový t-test :

  • Máte jednu ukázku skóre.

  • Všechna skóre jsou nezávislá na sobě.

  • Rozdělení vzorkování xˉ je normální.

Obecně platí, že jeden ukázkový t-test se používá k porovnání průměrné hodnoty se známým číslem.

Při použití těchto podmínek zvolte spárovaný t-test :

  • Máte spárované dvojice skóre. Můžete mít například dvě různé míry na osobu nebo spárované páry jednotlivců (například manžela a manželky).

  • Každá dvojice skóre je nezávislá na každém druhém páru.

  • Rozdělení vzorkování d je normální.

Spárovaný t-test je užitečný při porovnávání souvisejících případů. Průměrem rozdílů mezi skóre spárovaných případů můžete určit, jestli je celkový rozdíl statisticky významný.

Zvolte nezaplacený t-test , pokud se použijí tyto podmínky:

  • Máte dva nezávislé vzorky skóre. To znamená, že neexistuje žádný základ pro párování skóre ve vzorku 1 s těmi ve vzorku 2.

  • Všechna skóre v rámci vzorku jsou nezávislá na všech ostatních skórech v rámci této ukázky.

  • Rozdělení vzorkování x1- x2 je normální.

  • Volitelně lze splnit požadavek, aby rozptyl mezi skupinami byl zhruba stejný.

Konfigurace testovací hypotézy pomocí t-Test

Jako vstup použijte jednu datovou sadu. Sloupce, které porovnáváte, musí být ve stejné datové sadě.

Pokud potřebujete porovnat sloupce z různých datových sad, můžete jednotlivé sloupce izolovat a porovnat pomocí možnosti Vybrat sloupce v datové sadě a potom je sloučit do jedné datové sady pomocí funkce Přidat sloupce.

  1. Přidejte testovací hypotézu pomocí modulu t-Test do experimentu.

    Tento modul najdete v kategorii Statistické funkce v sadě Studio (classic).

  2. Přidejte datovou sadu obsahující sloupec nebo sloupce, které chcete analyzovat.

  3. Rozhodněte se, jaký typ t-testu je vhodný pro vaše data. Podívejte se, jak zvolit t-test.

  4. Jedna ukázka: Pokud používáte jednu ukázku, nastavte tyto parametry:

    • Hypotéza null μ: Zadejte hodnotu, kterou chcete použít jako hypotézu s hodnotou null pro ukázku. Určuje očekávanou průměrnou hodnotu, proti které se bude testovat střední hodnota vzorku.

    • Cílový sloupec: Pomocí selektoru sloupců vyberte pro testování jeden číselný sloupec.

    • Typ hypotézy: Zvolte jednostranný nebo dvouchvostový test. Výchozí hodnota je dvoustranný test. Jedná se o nejběžnější typ testu, ve kterém je očekávané rozdělení symetrické kolem nuly.

      Možnost One Tail GT je určená pro jeden ocas větší než test. Tento test poskytuje větší sílu zjistit efekt v jednom směru tím, že netestuje efekt v druhém směru.

      Možnost One Tail LT poskytuje jednostranný test menší než test.

    • α: Zadejte faktor spolehlivosti. Tato hodnota se používá k vyhodnocení hodnoty P (první výstup modulu). Pokud je p nižší než faktor spolehlivosti, je nulová hypotéza odmítnuta.

  5. SpárovanéSamples: Pokud porovnáváte dva vzorky ze stejného základního souboru, nastavte tyto parametry:

    • Hypotéza null μ: Zadejte hodnotu, která představuje rozdíl vzorku mezi dvojicí vzorků.

    • Cílový sloupec: Pomocí selektoru sloupců vyberte dva číselné sloupce, které chcete otestovat.

    • Typ hypotézy: Vyberte buď jednosměrný nebo dvouchvostový test. Výchozí hodnota je dvoustranný test.

    • α: Zadejte faktor spolehlivosti. Tato hodnota se používá k vyhodnocení hodnoty P (první výstup modulu)> Pokud je p nižší než faktor spolehlivosti, nulová hypotéza se odmítne.

  6. Nezaplacené ukázky: Pokud porovnáte dvě nezaplacené ukázky, nastavte tyto parametry:

    • Předpokládejme stejnou odchylku: Zrušte výběr této možnosti, pokud jsou vzorky z různých populací.
    • Nulová hypotéza μ1: Zadejte střední hodnotu prvního sloupce.
    • Nulová hypotéza μ2: Zadejte střední hodnotu druhého sloupce.
    • Cílové sloupce: Pomocí selektoru sloupců vyberte dva číselné sloupce, které chcete otestovat.
    • Typ hypotézy: Určuje, jestli je test jednostranný nebo dvouchvostový. Výchozí hodnota je dvoustranný test.
    • α: Zadejte faktor spolehlivosti. Tato hodnota se používá k vyhodnocení hodnoty P (první výstup modulu)> Pokud je p nižší než faktor spolehlivosti, nulová hypotéza se odmítne.
  7. Spusťte experiment.

Výsledky

Výstupem modulu je datová sada obsahující skóre t-testu a transformace, kterou můžete volitelně uložit, abyste ji mohli znovu použít pro tuto nebo jinou datovou sadu pomocí použití transformace.

Datová sada skóre obsahuje tyto hodnoty bez ohledu na typ použitého t-testu:

  • Skóre pravděpodobnosti, které označuje spolehlivost nulové hypotézy
  • Hodnota, která označuje, zda by měla být zamítnuta nulová hypotéza

Tip

Nezapomeňte, že cílem je určit, jestli můžete odmítnout nulovou hypotézu. Skóre 0 neznamená, že byste měli přijmout nulovou hypotézu: znamená to, že nemáte dostatek dat a potřebujete další šetření.

Technické poznámky

Modul automaticky pojmenuje výstupní sloupce podle následujících konvencí v závislosti na tom, jaký typ t-testu byl vybrán, a jestli výsledek odmítl nebo přijal nulovou hypotézu.

U vstupních sloupců s názvy {0} a {1}modul vytvoří následující názvy:

Sloupce SingleSampleSet Spárovanésamples Nezaplacenéamply
Výstupní sloupec P P_ss({0}) P_ps({0}; {1}) P_us({0}, {1})
Výstupní sloupec RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Výpočet skóre

Tento modul vypočítá a použije směrodatnou odchylku vzorku; rovnice proto používá (n-1) ve jmenovateli.

Výpočetní skóre pro jeden ukázkový test

Vzhledem k jednomu vzorku skóre, nezávisle na sobě a normálním rozdělení se skóre vypočítá takto:

  1. Vezměte následující vstup:

    • Jeden sloupec hodnot z datové sady
    • Nulová hypotéza (H0) parametr μ0
    • Skóre spolehlivosti zadané α
  2. Extrahujte počet vzorků (n).

  3. Vypočítá střední hodnotu ukázkových dat.

  4. Vypočítá směrodatnou odchylku (s) ukázkových dat.

  5. Výpočet t a stupňů volnosti (df):

    Formula for degrees of freedom

  6. Extrahujte pravděpodobnost P z distribuční tabulky T pomocí t a df.

Výpočetní skóre pro spárovaný t-test

Vzhledem k odpovídající množině skóre se každou dvojicí nezávislou na druhém a normálním rozdělením v každé sadě se skóre vypočítá takto:

  1. Vezměte následující vstup:

    • Dva sloupce hodnot z datové sady
    • Parametr nulové hypotézy (H0) d0
    • Skóre spolehlivosti zadané α
  2. Extrahujte určitý počet párů vzorků (n).

  3. Vypočítat střední hodnotu rozdílů pro ukázková data:

    formula for mean of differences

  4. Vypočítá směrodatnou odchylku rozdílů (sd).

  5. Výpočet t a stupňů volnosti (df):

    Formula for degrees of freedom df

  6. Extrahujte pravděpodobnost (P) z distribuční tabulky (T) pomocí t a df.

Výpočetní skóre pro nezaplacený t-test

Vzhledem k dvěma nezávislým vzorkům skóre s normálním rozdělením hodnot v každém vzorku se skóre vypočítá takto:

  1. Vezměte následující vstup:

    • Datová sada obsahující dva sloupce doubles
    • Parametr nulové hypotézy (H0) (d0)
    • Skóre spolehlivosti zadané α
  2. Extrahujte řadu vzorků v každé skupině, n1 a n2.

  3. Vypočítejte prostředky pro každou z ukázkových sad.

  4. Vypočítá směrodatnou odchylku pro každou skupinu jako s1 a s2.

  5. Výpočet t a stupňů volnosti (df):

Volitelně můžete splnit požadavek, aby rozptyl mezi skupinami byl přibližně stejný, takto:

  1. Nejprve vypočítejte směrodatnou odchylku ve fondu:

    formula for pooled standard distribution

  2. Pokud neexistuje žádný předpoklad o rovnosti rozptylu, vypočítejte je takto:

    formula for pooled standard deviation

  3. Extrahujte P z distribuční tabulky (T) pomocí t a df.

Výpočet nulové hypotézy

Pravděpodobnost nulové hypotézy určené jako P se vypočítá takto:

  • Pokud P < α, nastavte příznak Odmítnout na True.

  • Pokud P ≥ α, nastavte příznak Odmítnout na False.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Name Rozsah Typ Výchozí Description
Typ hypotézy Všechny Hypotéza Dvoustranná Typ nulové hypotézy studenta t-test
Hypotéza null μ Všechny Float 0,0 Pro jeden vzorek t-test, null-hypothesized průměr pro vzorek

U spárovaného t-testu je rozdíl v ukázce
Cílové sloupce Všechny ColumnSelection Žádné Vzor výběru cílových sloupců
Předpokládejme, že se rovná rozptyl Všechny Logická hodnota Ano Předpokládejme, že odchylky dvou vzorků jsou stejné

Vztahuje se pouze na nezaplacené vzorky.
Nulová hypotéza μ1 Všechny Float 0,0 Nulová hypotéza střední hodnota pro první vzorek
Α [0.0;1.0] Float 0.95 Faktor spolehlivosti (pokud je P nižší než faktor spolehlivosti, nulová hypotéza je odmítnuta)

Výstupy

Název Typ Description
P Tabulka dat Skóre pravděpodobnosti, které označuje spolehlivost nulové hypotézy
Odmítnout H0 Tabulka dat Hodnota, která označuje, zda má být nulová hypotéza odmítnuta

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0008 K výjimce dochází, pokud parametr není v rozsahu.
Chyba 0017 K výjimce dochází v případě, že jeden nebo více zadaných sloupců má typ, který aktuální modul nepodporuje.
Chyba 0020 K výjimce dochází, pokud je počet sloupců v některých datových sadách předaných modulu příliš malý.
Chyba 0021 K výjimce dochází v případě, že počet řádků v některých datových sadách předaných do modulu je příliš malý.
Chyba 0031 K výjimce dochází v případě, že počet sloupců v sadě sloupců je menší, než je potřeba.
Chyba 0032 K výjimce dochází, pokud argument není číslo.
Chyba 0033 K výjimce dochází, pokud je argument nekonečno.

Seznam chyb specifických pro moduly Studio (Classic) najdete v tématu Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning kódy chyb rozhraní REST API.

Viz také

Statistické funkce