doğrusal bağıntıyı hesaplama
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning taşıma hakkındaki bilgilere bakın.
- Azure Machine Learning hakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Veri kümesindeki sütun değerleri arasındaki doğrusal bağıntıyı hesaplar
Kategori: İstatistiksel İşlevler
Not
Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)
Benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısında da kullanılabilir.
Modüle genel bakış
Bu makalede, giriş veri kümesindeki her olası değişken çifti için pearson bağıntı katsayıları kümesini hesaplamak için Machine Learning Studio'da (klasik) İşlem Doğrusal Bağıntı modülünün nasıl kullanılacağı açıklanmaktadır.
Pearson'un R testi olarak da adlandırılan Pearson korelasyon katsayısı, iki değişken arasındaki doğrusal ilişkiyi ölçen istatistiksel bir değerdir. Katsayı değerlerini inceleyerek, iki değişken arasındaki ilişkinin gücü ve bunların pozitif bağıntılı mı yoksa negatif bağıntılı mı olduğu hakkında bir şey çıkarabilirsiniz.
Doğrusal Bağıntıyı yapılandırma
Bağıntı katsayısını hesaplamadan önce verilerinizi temizleme ve değişkenler arasındaki ilişkinin bu modül için uygun olduğunu doğrulama gibi bazı önkoşullar vardır. Ayrıca eksik değerleri kaldırmanız veya açma/kapatmanız gerekir.
Bu modül kullanılırken aşağıdaki kısıtlamalar geçerlidir:
İşlem Doğrusal Bağıntı modülü yalnızca sayısal değerleri işleyebilir. Eksik değerler, sayısal olmayan değerler ve kategorik değerler de dahil olmak üzere diğer tüm değer türleri NaN olarak değerlendirilir.
Pearson'ın bağıntısı, veri kümesindeki giriş olarak geçirilen tüm sayısal sütunlar için hesaplanır. Bu çözümleme için uygun olan tüm sütunları hariç tutmayı unutmayın.
İşlem Doğrusal Bağıntısı eksik değerleri olan verilerle kullanılamaz.
1. Adım: Doğrusallığı belirleme
Test ettiğiniz sütunların bir tür doğrusal ilişkiye sahip olması beklenmiyorsa, bu katsayıyı oluşturmanın bir anlamı yoktur. Bu nedenle, önce sütunları test etmek, doğru türde verilere ve genel olarak doğru dağıtım türüne sahip olup olmadıklarını görmek iyi bir fikirdir.
Sütunlar arasındaki ilişkinin kabaca doğrusal olup olmadığını saptamanın çeşitli yolları vardır:
Veri kümesindeki Görselleştir seçeneğini kullanarak Studio'da (klasik) değişkenlerin dağılım grafiğini oluşturun. Sayısal değişken sütunlarından birine tıklayın, Görselleştirmeler'i genişletin ve karşılaştır'a tıklayın. Farklı bir değişken seçtiğinizde dağılım grafiği otomatik olarak oluşturulur. Farklı bir çizim türü oluşturulursa, en az bir sütunun farklı (sayısal olmayan) bir veri türü olduğu anlamına gelir.
İki değişken için regresyon denklemi hesaplama. Bunu destekleyen ve R Betiği Yürütme modülünde yükleyip kullanabileceğiniz birçok R paketi vardır.
2. Adım: Verileri temizleme
Eksik değerleri kaldırmanız veya doldurmanız, aykırı değerleri kaldırmanız veya kırpmanız ve sütunların doğru veri türüne sahip olduğundan emin olmanız gerekir.
Bu modülü kullanmadan önce yer tutucuları denetlemeyi ve bu değeri diğer uygun değerlerle değiştirmeyi unutmayın. Veri kümesi kaynaktan yüklendiğinde eksik değerler için AD'ler eklendiyse hataya neden olabilir. veya -1
gibi 999
yer tutucu değerler de hatalı sonuçlara neden olabilir.
Verilerinizi hazırlamak için şu modülleri kullanabilirsiniz:
Meta Verileri Düzenle'yi kullanarak sütunların veri türünü ayarlayabilirsiniz. Çözümlemek istediğiniz sütunların özellik sütunları olarak işaretlendiğinden emin olun.
3. Adım: Katsayıyı oluşturma
Denemenize İşlem Doğrusal Bağıntı modülünü ekleyin. Bu modülü Machine Learning Studio'daki İstatistiksel İşlevler kategorisinde bulabilirsiniz (klasik).
Analiz etmek istediğiniz veri kümesini ekleyin.
Gereksiz sütunları kaldırmak için veri kümeniz ile İşlem Doğrusal Bağıntı modülü arasına Veri Kümesindeki Sütunları Seçme modülü eklemenizi öneririz. Veri Kümesindeki Sütunları Seçme modülünü yalnızca katsayılarını hesaplamak istediğiniz iki sayısal sütunu alacak şekilde yapılandırın.
Aksi takdirde İşlem Doğrusal Bağıntı modülü birçok NaN sütunu oluşturabilir.
Bu modül için ayarlanacağı parametre yok. Ancak, giriş olarak geçirdiğiniz sütunlar gereksinimleri karşılamıyorsa başarısız olur.
Denemeyi çalıştırın.
İki sütun için sonuçlar
İki özellik sütunu göz önünde bulundurulduğunda İşlem Doğrusal Bağıntı modülü skaler Pearson ürün momenti (örnek) korelasyon katsayısını döndürür. Pearson korelasyon katsayısı (genellikle r olarak belirtilir) +1 ile -1 arasındaki değerlerdir.
+1
güçlü pozitif doğrusal ilişkiyi gösterir-1
güçlü negatif doğrusal bağıntıyı gösterir0
iki değişken arasında doğrusal ilişki olmadığını belirtir.
Katsayıların yorumu, modelleme yaptığınız soruna ve üzerinde çalıştığınız değişkenlere çok bağlıdır. Bu nedenle Pearson korelasyon katsayısını bildirirken ve yorumlarken verilerin bağlamını anlamak önemlidir.
Değişkenlerin ilişkisiz olduğundan eminseniz ve Pearson'un korelasyon katsayısı güçlü pozitifse (r.5 > veya daha fazla), daha fazla araştırma yapmanız gerekir.
Mükemmel bağıntılı olduğunu bildiğiniz iki değişkende doğrusal bağıntı kullanıyorsanız ve katsayı değerleri beklediğiniz gibi değilse, verilerde bir sorun olduğunu gösterebilir.
İkiden fazla sütunun sonuçları
Bir matris (yani ikiden fazla özellik sütunu) verildiğinde İşlem Doğrusal Bağıntı modülü, her özellik sütunu çifti arasında pearson ürün momenti bağıntıları kümesini döndürür.
Bu nedenle, sonuç n sütunlarının her birleşimi için katsayıları içeren bir n x n tablodur. Herhangi bir sütun ölçütleri karşılamıyorsa, bir NaN ("sayı değil" değeri) döndürülür.
Örneğin, iki sayısal sütunu ve curb-weight
bir kategorik sütunu wheel-base
make
(Automobile price veri kümesinden) geçirdiğinizi varsayalım. Sonuç, giriş sütunlarının olası tüm birleşimleri için katsayıların 3x3 tablosudur:
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
Bu tabloda satırlar, ve değişkenlerininmake
wheel-base
curb-weight
her birini bu sırada temsil eder.
- kendisiyle bağıntısının
wheel-base
r değeri 1'dir. - ile bağıntısının
wheel-base
curb-weight
r değeri 0,776386'dır. - Bir dize özelliği olduğundan
make
, sütunmake
sonucunu içeren tüm bağıntılar, kendisiyle bağıntı da dahil olmak üzere NaN sonucunu verir.
Birçok anlamsız değer içeren karmaşık tablolardan kaçınmak için sayısal olmayan sütunları kaldırmanızı öneririz.
Örnekler
Bu modülün makine öğrenmesi denemelerinde nasıl kullanıldığını görmek için bkz. Azure AI Galerisi:
- Veri İşleme ve Analiz: Bu örnek, verilerinizi değiştirmek için birden çok teknik gösterir. İşlem Doğrusal Bağıntısı , olası özellik sütunlarını tanımlamak için kullanılır.
Teknik notlar
Bu bölüm uygulama ayrıntılarını, ipuçlarını ve sık sorulan soruların yanıtlarını içerir.
Uygulama ayrıntıları
Giriş olarak geçirilen sütun skaler içeriyorsa, giriş dizileri (x ve y) vektör olarak kabul edilir ve Pearson ürün momenti bağıntısı aşağıdaki gibi hesaplanır:
Bu formülde her dizi n öğe içerir ve x ve y örneklerinin ortalamaları sırasıyla μx ve μy'tir.
Matris için, her sütunun bir değer vektörünün temsil ettiği veri matrisi (X) girişidir. Veri matrisi n-by-m olmalıdır. Çıkış, tarafından tanımlanan m-by-m matrisidir, R
Bu formülde μx, xi sütununun ortalama değerini temsil eder. I,j'deki öğeler her zaman 1'e eşittir, bir vektörünün kendisiyle bağıntısını temsil eder.
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri Tablosu | Giriş veri kümesi |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri Tablosu | Bağıntılar matrisi |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0003 | Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur. |
Hata 0020 | Modüle geçirilen bazı veri kümelerindeki sütun sayısı çok küçükse özel durum oluşur. |
Hata 0021 | Modüle geçirilen bazı veri kümelerindeki satır sayısı çok küçükse özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. hata kodları Machine Learning.
API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.