Aracılığıyla paylaş


t-Test Kullanarak Test Hipotezi

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

T testi kullanan iki sütundan ortalamaları karşılaştırır

Kategori: İstatistiksel İşlevler

Not

Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)

Benzer sürükle ve bırak modülleri de Azure Machine Learning tasarımcısında kullanılabilir.

Modüle genel bakış

Bu makalede, üç tür t testi için puan oluşturmak için Machine Learning Studio'da (klasik) t-Test Kullanarak Test Hipotezi modülünün nasıl kullanılacağı açıklanmaktadır:

  • Tek örnek t testi
  • Eşleştirilmiş t testi
  • Eşleşmeyen t testi

Genel olarak, t testi iki grubun farklı araçları olup olmadığını karşılaştırmanıza yardımcı olur. Örneğin, A ilacını alan ve B ilacı alan hastaların deneme verilerini değerlendirdiğiniz ve her iki grup için de kurtarma oranı ölçümünü karşılaştırmanız gerektiğini varsayalım. Sıfır hipotezi, kurtarma hızının her iki grupta da aynı olduğunu ve ayrıca kurtarma oranı değerlerinin iki grupta da normal bir dağılıma sahip olduğunu varsayar.

Test Hipotezi kullanarak t-Test kullanarak ve kurtarma oranlarını içeren sütunları giriş olarak sağlayarak, farkın anlamlı olup olmadığını belirten puanlar alabilirsiniz; bu da sıfır hipotezinin reddedilmesi gerektiğini gösterir. Test, değerler arasındaki farkın ne kadar büyük olduğu, örneğin boyutu (daha büyük daha iyi) ve standart sapmanın ne kadar büyük olduğu (daha düşük daha iyidir) gibi faktörleri dikkate alır.

T-Test Kullanarak Test Hipotezi modülünün sonuçlarını gözden geçirerek, sıfır hipotezinin DOĞRU mu yoksa YANLIŞ mı olduğunu belirleyebilir ve t-testten güvenilirlik (P) puanlarını gözden geçirebilirsiniz.

T testi seçme

Bu koşullar geçerli olduğunda tek bir örnek t testi seçin:

  • Tek bir puan örneğine sahipsiniz.

  • Tüm puanlar birbirinden bağımsızdır.

  • xˉ örnekleme dağılımı normaldir.

Genel olarak, ortalama değeri bilinen bir sayı ile karşılaştırmak için tek örnek t testi kullanılır.

Bu koşullar geçerli olduğunda eşleştirilmiş bir t testi seçin:

  • Eşleşen bir puan çiftleriniz var. Örneğin, kişi başına iki farklı ölçüye veya eşlenmiş kişi çiftlerine (karı koca gibi) sahip olabilirsiniz.

  • Her bir puan çifti diğer çiftlerden bağımsızdır.

  • d örnekleme dağılımı normaldir.

Eşleştirilmiş t testi, ilgili durumları karşılaştırırken yararlıdır. Eşleştirilmiş servis taleplerinin puanları arasındaki farkların ortalamasını alarak, toplam farkın istatistiksel olarak anlamlı olup olmadığını belirleyebilirsiniz.

Bu koşullar geçerli olduğunda eşleşmeyen bir t testi seçin:

  • İki bağımsız puan örneğine sahipsiniz. Başka bir ifadeyle, örnek 1'deki puanları örnek 2'deki puanlarla eşleştirmenin temeli yoktur.

  • Örnek içindeki tüm puanlar, bu örnekteki diğer tüm puanlardan bağımsızdır.

  • x1- x2 örnekleme dağılımı normaldir.

  • İsteğe bağlı olarak, gruplar arasındaki farkın kabaca eşit olması gereksinimini karşılayın.

t-Test Kullanarak Test Hipotezini yapılandırma

Giriş olarak tek bir veri kümesi kullanın. Karşılaştırdığınız sütunlar aynı veri kümesinde olmalıdır.

Farklı veri kümelerindeki sütunları karşılaştırmanız gerekiyorsa, Veri Kümesindeki Sütunları Seç'i kullanarak her sütunu karşılaştıracak şekilde yalıtabilir ve sonra Sütun Ekle'yi kullanarak bunları tek bir veri kümesinde birleştirebilirsiniz.

  1. Denemenize t-Test Kullanarak Test Hipotezi modülünü ekleyin.

    Bu modülü Studio'daki İstatistiksel İşlevler kategorisinde (klasik) bulabilirsiniz.

  2. Çözümlemek istediğiniz sütunu veya sütunları içeren veri kümesini ekleyin.

  3. Verileriniz için hangi tür t testinin uygun olduğuna karar verin. Bkz. T testi seçme.

  4. Tek örnek: Tek bir örnek kullanıyorsanız şu parametreleri ayarlayın:

    • Sıfır hipotezli μ: Örnek için null hipotezlenmiş ortalama olarak kullanılacak değeri yazın. Bu, örnek ortalamanın test edilecek beklenen ortalama değerini belirtir.

    • Hedef sütun: Test için tek bir sayısal sütun seçmek için Sütun Seçici'yi kullanın.

    • Hipotez türü: Tek kuyruklu veya iki kuyruklu bir test seçin. Varsayılan değer iki kuyruklu bir testtir. Bu, beklenen dağılımın sıfır civarında simetrik olduğu en yaygın test türüdür.

      One Tail GT seçeneği, tek kuyruklu bir testten daha büyük bir seçenektir. Bu test, efekti diğer yönde test etmeyerek bir etkiyi bir yönde algılamak için daha fazla güç verir.

      One Tail LT seçeneği, tek kuyruklu bir testten daha azını verir.

    • α: Güvenilirlik faktörü belirtin. Bu değer P değerini (modülün ilk çıkışı) değerlendirmek için kullanılır. p güvenilirlik faktöründen düşükse, sıfır hipotezi reddedilir.

  5. PairedSamples: Aynı popülasyondan iki örneği karşılaştırıyorsanız şu parametreleri ayarlayın:

    • Sıfır hipotezli μ: Örnek çifti arasındaki örnek farkını temsil eden bir değer yazın.

    • Hedef sütun: Test etmek üzere iki sayısal sütunu seçmek için Sütun Seçici'yi kullanın.

    • Hipotez türü: Tek kuyruklu veya iki kuyruklu testi seçin. Varsayılan değer iki kuyruklu bir testtir.

    • α: Güvenilirlik faktörünü belirtin. Bu değer P değerini değerlendirmek için kullanılır (modülün ilk çıkışı)> p güvenilirlik faktöründen düşükse, sıfır hipotezi reddedilir.

  6. UnpairedSamples: İki eşleşmeyen örneği karşılaştırırsanız şu parametreleri ayarlayın:

    • Eşit varyans varsay: Örnekler farklı popülasyonlardan geldiğinde bu seçeneğin seçimini kaldırın.
    • Sıfır hipotezli μ1: İlk sütunun ortalamasını yazın.
    • Sıfır hipotezli μ2: İkinci sütunun ortalamasını yazın.
    • Hedef sütunlar: Test etmek üzere iki sayısal sütun seçmek için Sütun Seçici'yi kullanın.
    • Hipotez türü: Testin tek kuyruklu mu yoksa iki kuyruklu mu olduğunu gösterir. Varsayılan değer iki kuyruklu bir testtir.
    • α: Güvenilirlik faktörünü belirtin. Bu değer P değerini değerlendirmek için kullanılır (modülün ilk çıkışı)> p güvenilirlik faktöründen düşükse, sıfır hipotezi reddedilir.
  7. Denemeyi çalıştırın.

Sonuçlar

Modülün çıkışı, t testi puanlarını içeren bir veri kümesidir ve dönüştürmeyi uygula'yı kullanarak bu veya başka bir veri kümesine yeniden uygulamak için isteğe bağlı olarak kaydedebileceğiniz bir dönüşümdür.

Puanların veri kümesi, kullandığınız t testinin türünden bağımsız olarak şu değerleri içerir:

  • Sıfır hipotezinin güvenilirliğini gösteren olasılık puanı
  • Null hipotezinin reddedilip reddedilmeyeceğini belirten bir değer

İpucu

Unutmayın, amaç sıfır hipotezini reddedip reddedemeyeceğinizi belirlemektir. 0 puanı, sıfır hipotezini kabul etmeniz gerektiği anlamına gelmez: yeterli veriniz olmadığı ve daha fazla araştırma yapmanız gerektiği anlamına gelir.

Teknik notlar

Modül, hangi t-test türünün seçildiğine ve sonucun sıfır hipotezini reddedip kabul etmediğine bağlı olarak çıkış sütunlarını aşağıdaki kurallar doğrultusunda otomatik olarak adlandırır.

ve adlı {0}{1}giriş sütunları verilen modül aşağıdaki adları oluşturur:

Sütunlar SingleSampleSet PairedSamples UnpairedSamples
Çıkış sütunu P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Çıkış sütunu RejectH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Puanlar nasıl hesaplanır?

Bu modül örnek standart sapması hesaplar ve kullanır; bu nedenle, denklem paydada kullanır (n-1) .

Tek örnekli test için puan hesaplama

Her biri birbirinden bağımsız tek bir puan örneği ve normal bir dağılım verildiğinde, puan aşağıdaki gibi hesaplanır:

  1. Aşağıdaki girişi alın:

    • Veri kümesinden tek bir değer sütunu
    • Sıfır hipotezi (H0) parametresi μ0
    • α tarafından belirtilen güvenilirlik puanı
  2. Örnek sayısını (n) ayıklayın.

  3. Örnek verilerin ortalamasını hesaplama.

  4. Örnek verilerin standart sapması (lar) hesaplama.

  5. T ve serbestlik derecelerini hesaplama (df):

    Formula for degrees of freedom

  6. T ve df kullanarak T dağılım tablosundan P olasılığını ayıklayın.

Eşleştirilmiş t testinin puanlarını hesaplama

Her bir çiftin birbirinden bağımsız olduğu eşleşen bir puan kümesi ve her kümedeki normal dağılım göz önünde bulundurulduğunda, puan aşağıdaki gibi hesaplanır:

  1. Aşağıdaki girişi alın:

    • Veri kümesinden iki değer sütunu
    • Sıfır hipotezi (H0) parametresi d0
    • α tarafından belirtilen güvenilirlik puanı
  2. Birkaç örnek çifti (n) ayıklayın.

  3. Örnek veriler için fark ortalamasını hesaplayın:

    formula for mean of differences

  4. Farklılıkların standart sapması (sd) hesaplama.

  5. T ve serbestlik derecelerini (df) hesaplayın:

    Formula for degrees of freedom df

  6. T ve df kullanarak dağılım tablosundan (T) olasılık (P) ayıklayın.

Eşleşmeyen bir t-testinin puanlarını hesaplama

Her örnekte değerlerin normal dağılımıyla iki bağımsız puan örneği verildiğinde, puan aşağıdaki gibi hesaplanır:

  1. Aşağıdaki girişi alın:

    • İki sütun içeren bir veri kümesi doubles
    • Sıfır hipotezi (H0) parametresi (d0)
    • α tarafından belirtilen güvenilirlik puanı
  2. N1 ve n2 olmak üzere her gruptaki bir dizi örneği ayıklayın.

  3. Örnek kümelerin her biri için ortalamaları hesaplayın.

  4. Her grup için standart sapması s1 ve s2 olarak hesaplayın.

  5. T ve serbestlik derecelerini hesaplama (df):

İsteğe bağlı olarak, gruplar arasındaki farkın kabaca eşit olması gereksinimini aşağıdaki gibi karşılayın:

  1. Önce havuza alınan standart sapması hesaplayın:

    formula for pooled standard distribution

  2. Varyans eşitliği hakkında bir varsayım yoksa, aşağıdaki gibi hesaplayın:

    formula for pooled standard deviation

  3. T ve df kullanarak dağıtım tablosundan (T) P'yi ayıklayın.

Sıfır hipotezini hesaplama

P olarak belirlenen sıfır hipotezinin olasılığı aşağıdaki gibi hesaplanır:

  • P < α Reddet bayrağını True olarak ayarlayın.

  • P ≥ α Reddet bayrağını False olarak ayarlayın.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Hipotez türü Herhangi biri Hipotez İki kuyruklu Öğrencinin t-test null hipotez türü
Sıfır hipotezli μ Herhangi biri Float 0,0 Tek örnek t testi için örnek için null hipotezleştirilmiş ortalaması

Eşleştirilmiş t testi için örnek farkı
Hedef sütun(lar) Herhangi biri ColumnSelection Hiçbiri Hedef sütun seçim deseni
Eşit varyansları varsay Herhangi biri Boole Doğru İki örneğin varyansının eşit olduğunu varsayın

Yalnızca eşleşmeyen örnekler için geçerlidir
Sıfır hipotezli μ1 Herhangi biri Float 0,0 İlk örnek için sıfır hipotezli ortalama
Α [0.0;1.0] Float 0.95 Güvenilirlik faktörü (P güvenilirlik faktöründen düşükse, sıfır hipotezi reddedilir)

Çıkışlar

Ad Tür Description
P Veri Tablosu Sıfır hipotezinin güvenilirliğini gösteren olasılık puanı
H0'i reddet Veri Tablosu Null hipotezinin reddedilip reddedilmeyeceğini gösteren değer

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0008 Parametre aralıkta değilse özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerindeki sütun sayısı çok küçükse özel durum oluşur.
Hata 0021 Modüle geçirilen bazı veri kümelerindeki satır sayısı çok küçükse özel durum oluşur.
Hata 0031 Sütun kümesindeki sütun sayısı gerekenden azsa özel durum oluşur.
Hata 0032 Bağımsız değişken bir sayı değilse özel durum oluşur.
Hata 0033 Bağımsız değişken sonsuz olduğunda özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning Hata kodları.

API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.

Ayrıca bkz.

İstatistiksel İşlevler