Hypothese testen met t-test

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Vergelijkt middelen uit twee kolommen met behulp van een t-test

Categorie: Statistische functies

Notitie

Van toepassing op: alleen Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de testhypothese gebruikt met behulp van de t-testmodule in Machine Learning Studio (klassiek), om scores te genereren voor drie typen t-tests:

T-test met één voorbeeld
Gekoppelde t-test
Niet-geslapen t-test

Over het algemeen helpt een t-test u te vergelijken of twee groepen verschillende middelen hebben. Stel dat u proefgegevens evalueert voor patiënten die Drug A hebben ontvangen versus patiënten die Drug B hebben ontvangen, en u moet een metrische herstelsnelheid vergelijken voor beide groepen. Bij de nulhypothese wordt ervan uitgegaan dat de herstelsnelheid in beide groepen hetzelfde is en bovendien dat de waarden voor het herstelpercentage een normale verdeling in beide groepen hebben.

Door testhypothese te gebruiken met behulp van t-Test en de kolommen op te geven die de herstelsnelheden als invoer bevatten, kunt u scores krijgen die aangeven of het verschil zinvol is, wat zou betekenen dat de nulhypothese moet worden afgewezen. De test houdt rekening met factoren zoals hoe groot het verschil is tussen de waarden, de grootte van de steekproef (groter is beter) en hoe groot de standaarddeviatie is (lager is beter).

Door de resultaten van de testhypothese te bekijken met behulp van de t-testmodule , kunt u bepalen of de nulhypothese WAAR of ONWAAR is en de betrouwbaarheidsscores (P) van de t-test controleren.

Een t-test kiezen

Kies één t-test met één voorbeeld wanneer deze voorwaarden van toepassing zijn:

U hebt één steekproef van scores.
Alle scores zijn onafhankelijk van elkaar.
De steekproefverdeling van xˉ is normaal.

Over het algemeen wordt de T-test met één steekproef gebruikt om een gemiddelde waarde te vergelijken met een bekend getal.

Kies een gekoppelde t-test wanneer deze voorwaarden van toepassing zijn:

U hebt een overeenkomende paren scores. U kunt bijvoorbeeld twee verschillende metingen per persoon hebben of overeenkomende paren personen (zoals een echtgenoot en vrouw).
Elk paar scores is onafhankelijk van elk ander paar.
De steekproefverdeling d is normaal.

Een gekoppelde t-test is handig bij het vergelijken van gerelateerde gevallen. Door de verschillen tussen de scores van de gekoppelde gevallen te gemiddelden, kunt u bepalen of het totale verschil statistisch significant is.

Kies een ongepairede t-test wanneer deze voorwaarden van toepassing zijn:

U hebt twee onafhankelijke steekproeven van scores. Dat wil gezegd, er is geen basis voor het koppelen van scores in steekproef 1 met de scores in steekproef 2.
Alle scores in een steekproef zijn onafhankelijk van alle andere scores in die steekproef.
De steekproefverdeling van x1- x2 is normaal.
Optioneel voldoet u aan de vereiste dat de variantie tussen de groepen ongeveer gelijk is.

Testhypothese configureren met behulp van t-Test

Gebruik één gegevensset als invoer. De kolommen die u vergelijkt, moeten zich in dezelfde gegevensset bevinden.

Als u kolommen uit verschillende gegevenssets wilt vergelijken, kunt u elke kolom isoleren om te vergelijken met behulp van Select Columns in Dataset en deze vervolgens samenvoegen in één gegevensset met behulp van Kolommen toevoegen.

Voeg de module Testhypothese met behulp van t-Test toe aan uw experiment.

U vindt deze module in de categorie Statistische functies in Studio (klassiek).
Voeg de gegevensset toe die de kolom of kolommen bevat die u wilt analyseren.
Bepaal welk type t-test geschikt is voor uw gegevens. Zie Hoe u een t-test kiest.
Eén voorbeeld: Als u één voorbeeld gebruikt, stelt u deze parameters in:
- Null-hypothesized μ: typ de waarde die moet worden gebruikt als het null-hypothesized gemiddelde voor de steekproef. Hiermee geeft u de verwachte gemiddelde waarde op waarmee het steekproefgemiddelde wordt getest.
- Doelkolom: Gebruik de kolomkiezer om één numerieke kolom te kiezen om te testen.
- Hypothesetype: Kies een eenzijdige of tweezijdige test. De standaardwaarde is een tweezijdige test. Dit is het meest voorkomende type test, waarbij de verwachte verdeling symmetrisch rond nul is.
  
  De optie One Tail GT is voor een eenzijdige groter dan test. Deze test geeft meer vermogen om een effect in één richting te detecteren, door het effect niet in de andere richting te testen.
  
  De optie One Tail LT biedt een eenzijdige test.
- α: geef een betrouwbaarheidsfactor op. Deze waarde wordt gebruikt om de waarde van P (de eerste uitvoer van de module) te evalueren. Als p lager is dan de betrouwbaarheidsfactor, wordt de nulhypothese geweigerd.
PairedSamples: Als u twee steekproeven uit dezelfde populatie vergelijkt, stelt u deze parameters in:
- Null-hypothesized μ: typ een waarde die het steekproefverschil vertegenwoordigt tussen het paar steekproeven.
- Doelkolom: Gebruik de kolomkiezer om de twee numerieke kolommen te kiezen die u wilt testen.
- Hypothesetype: Selecteer een eenzijdige of tweezijdige test. De standaardwaarde is een tweezijdige test.
- α: geef de betrouwbaarheidsfactor op. Deze waarde wordt gebruikt om de waarde van P (de eerste uitvoer van de module)> te evalueren als p lager is dan de betrouwbaarheidsfactor, wordt de nulhypothese geweigerd.
UnpairedSamples: Als u twee niet-gefairede steekproeven vergelijkt, stelt u deze parameters in:
- Stel een gelijke variantie in: schakel deze optie uit wanneer de steekproeven afkomstig zijn uit verschillende populaties.
- Null-hypothesized μ1: Typ het gemiddelde voor de eerste kolom.
- Null-hypothesized μ2: Typ het gemiddelde voor de tweede kolom.
- Doelkolommen: gebruik de kolomkiezer om twee numerieke kolommen te kiezen die u wilt testen.
- Hypothesetype: Geef aan of de test eenzijdige of tweezijdige test is. De standaardwaarde is een tweezijdige test.
- α: geef de betrouwbaarheidsfactor op. Deze waarde wordt gebruikt om de waarde van P (de eerste uitvoer van de module)> te evalueren als p lager is dan de betrouwbaarheidsfactor, wordt de nulhypothese geweigerd.
Voer het experiment uit.

Resultaten

De uitvoer van de module is een gegevensset met de t-testscores en een transformatie die u desgewenst kunt opslaan om deze of een andere gegevensset opnieuw toe te passen met behulp van Transformatie toepassen.

De gegevensset met scores bevat deze waarden, ongeacht het type t-test dat u hebt gebruikt:

Een waarschijnlijkheidsscore die het vertrouwen van de nulhypothese aangeeft
Een waarde die aangeeft of de nulhypothese moet worden afgewezen

Tip

Onthoud dat het doel is om te bepalen of u de nulhypothese kunt negeren. Een score van 0 betekent niet dat u de nulhypothese moet accepteren: dit betekent dat u niet voldoende gegevens hebt en verder onderzoek nodig hebt.

Technische opmerkingen

De module noemt automatisch de uitvoerkolommen volgens de volgende conventies, afhankelijk van het type t-test dat is geselecteerd en of het resultaat de nulhypothese moet negeren of accepteren.

Bij opgegeven invoerkolommen met namen {0} en {1}maakt de module de volgende namen:

Kolommen	SingleSampleSet	PairedSamples	UnpairedSamples
Uitvoerkolom P	P_ss({0})	P_ps({0}, {1})	P_us({0}, {1})
Uitvoerkolom RejectH0	RejectH0_ss({0})"	RejectH0_ps({0}, {1})	RejectH0_us({0}, {1})

Hoe scores worden berekend

In deze module wordt de standaarddeviatie van de steekproef berekend en gebruikt; daarom gebruikt (n-1) de vergelijking in de noemer.

Computingscores voor een test met één steekproef

Gezien één steekproef van scores, allemaal onafhankelijk van elkaar en een normale verdeling, wordt de score als volgt berekend:

Voer de volgende invoer in:
- Eén kolom met waarden uit de gegevensset
- De nulhypotheseparameter (H0) μ0
- De betrouwbaarheidsscore die is opgegeven door α
Pak het aantal steekproeven (n) uit.
Bereken het gemiddelde van de voorbeeldgegevens.
Bereken de standaarddeviatie (s) van de voorbeeldgegevens.
Bereken t en vrijheidsgraden (df):
Pak waarschijnlijkheid P uit de distributietabel T uit met behulp van t en df.

Computingscores voor een gekoppelde t-test

Gezien een overeenkomende set scores, waarbij elk paar onafhankelijk is van de andere, en een normale verdeling in elke set, wordt de score als volgt berekend:

Voer de volgende invoer in:
- Twee kolommen met waarden uit de gegevensset
- De nulhypotheseparameter (H0) d0
- De betrouwbaarheidsscore die is opgegeven door α
Extraheer een aantal steekproefparen (n).
Bereken het gemiddelde van verschillen voor de voorbeeldgegevens:
Bereken de standaarddeviatie van verschillen (SD).
Bereken t en de vrijheidsgraden (df):
Pak waarschijnlijkheid (P) uit de distributietabel (T) met behulp van t en df.

Computingscores voor een niet-geaireerde t-test

Gezien twee onafhankelijke steekproeven van scores, met een normale verdeling van waarden in elke steekproef, wordt de score als volgt berekend:

Voer de volgende invoer in:
- Een gegevensset met twee kolommen van doubles
- De parameter null-hypothese (H0) (d0)
- De betrouwbaarheidsscore die is opgegeven door α
Extraheer een aantal steekproeven in elke groep, n1 en n2.
Bereken de middelen voor elk van de voorbeeldsets.
Bereken de standaarddeviatie voor elke groep als s1 en s2.
Bereken t en vrijheidsgraden (df):

Optioneel moet u voldoen aan de vereiste dat de variantie tussen de groepen ongeveer gelijk is, als volgt:

Bereken eerst de gegroepeerde standaarddeviatie:
Als er geen veronderstelling is over variantiegelijkheid, berekent u het volgende:
Pak P uit de distributietabel (T) met behulp van t en df.

De nulhypothese berekenen

De waarschijnlijkheid van de nulhypothese, aangeduid als P, wordt als volgt berekend:

Als P < α, stelt u de vlag Weigeren in op Waar.
Als P ≥ α, stelt u de vlag Weigeren in op Onwaar.

Verwachte invoer

Naam	Type	Beschrijving
Gegevensset	Gegevenstabel	Invoergegevensset

Moduleparameters

Name	Bereik	Type	Standaard	Beschrijving
Type hypothese	Alle	Hypothese	Tweezijdig	T-toets nulhypothesetype student
Null-hypothesized μ	Alle	Float	0,0	Voor de enkele T-toets van het monster is het null-hypothesized gemiddelde voor de steekproef Voor de gekoppelde t-test is het steekproefverschil
Doelkolom(n)	Alle	ColumnSelection	Geen	Selectiepatroon doelkolom(s)
Ga uit van gelijke varianties	Alle	Boolean-waarde	True	Stel dat de varianties van twee steekproeven gelijk zijn Alleen van toepassing op niet-geaireerde steekproeven
Null-hypothesized μ1	Alle	Float	0,0	Null-hypothesized gemiddelde voor eerste steekproef
Α	[0.0;1.0]	Float	0,95	Betrouwbaarheidsfactor (als P lager is dan de betrouwbaarheidsfactor, wordt nulhypothese geweigerd)

Uitvoerwaarden

Naam	Type	Beschrijving
P	Gegevenstabel	Een waarschijnlijkheidsscore die het vertrouwen van de nulhypothese aangeeft
H0 weigeren	Gegevenstabel	Waarde die aangeeft of de nulhypothese moet worden geweigerd

Uitzonderingen

Uitzondering	Beschrijving
Fout 0003	Er treedt een uitzondering op als een of meer invoerwaarden null of leeg zijn.
Fout 0008	Uitzondering treedt op als de parameter zich niet in het bereik bevindt.
Fout 0017	Uitzondering treedt op als een of meer opgegeven kolommen een type hebben dat niet wordt ondersteund door de huidige module.
Fout 0020	Uitzondering treedt op als het aantal kolommen in sommige gegevenssets dat aan de module is doorgegeven, te klein is.
Fout 0021	Uitzondering treedt op als het aantal rijen in sommige gegevenssets dat aan de module is doorgegeven, te klein is.
Fout 0031	Uitzondering treedt op als het aantal kolommen in de kolomset kleiner is dan nodig is.
Fout 0032	Uitzondering treedt op als het argument geen getal is.
Fout 0033	Uitzondering treedt op als het argument oneindig is.

Zie Machine Learning Foutcodes voor een lijst met fouten die specifiek zijn voor Studio-modules (klassiek).

Zie Machine Learning REST API-foutcodes voor een lijst met API-uitzonderingen.

Zie ook

Statistische functies

Delen via