Aracılığıyla paylaş


Filtre Tabanlı Özellik Seçimi

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Bir veri kümesinde en büyük tahmin gücü olan özellikleri tanımlar

Kategori: Özellik Seçimi Modülleri

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, giriş veri kümenizin en büyük tahmin gücüne sahip sütunları tanımlamak için Machine Learning Studio'daki (klasik) Filtre Tabanlı Özellik Seçimi modülünün nasıl kullanımı açıklanmıştır.

Genel olarak, özellik seçimi, hangi sütunların çıkışa daha tahmine dayalı olduğunu belirlemek için belirtilen bir çıktıda girişlere istatistiksel testler uygulama işlemini ifade eder. Filtre Tabanlı Özellik Seçimi modülü, Pearsons veya Kendall'ın bağıntısı, karşılıklı bilgi puanları ve kikare değerleri gibi bağıntı yöntemleri dahil olmak üzere aralarından seçim yapılacak birden çok özellik seçimi algoritması sağlar. Machine Learning özellik değeri sayılarını bilgi değerinin göstergesi olarak da destekler.

Filtre Tabanlı Özellik Seçimi modülünü kullanarak bir veri kümesi sağlar, etiketi veya bağımlı değişkeni içeren sütunu tanımlayabilir ve ardından özellik önemini ölçmek için tek bir yöntem belirtebilirsiniz.

Modül, tahmine dayalı güç tarafından dereceli olarak en iyi özellik sütunlarını içeren bir veri kümesi çıkışı sağlar. Ayrıca, özelliklerin adlarını ve bunların puanlarını seçilen ölçümden çıkış olarak sunar.

Filtre tabanlı özellik seçimi nedir ve neden kullansın?

Seçilen ölçümü ilgisiz öznitelikleri tanımlamak ve modelden yedekli sütunları filtrelemek için seçtiğiniz için bu özellik seçimi modülü "filtre tabanlı" olarak adlandırılan bir modüldür. Verilerinize uyan tek bir istatistiksel ölçü seçersiniz ve modül her özellik sütunu için bir puan hesaplar. Sütunlar özellik puanlarına göre dereceli olarak döndürülür.

Doğru özellikleri seçerek sınıflandırmanın doğruluğunu ve verimliliğini geliştirebilirsiniz.

Tahmine dayalı modelinizi oluşturmak için genellikle yalnızca en iyi puanlara sahip sütunları kullanırsınız. Zayıf özellik seçim puanlarına sahip sütunlar veri kümesinde bırakılabilir ve model ekleyebilirsiniz.

Özellik seçimi ölçümü seçme

Filtre Tabanlı Özellik Seçimi, her sütundaki bilgi değerini değerlendirmek için çeşitli ölçümler sağlar. Bu bölümde her ölçümün genel bir açıklaması ve nasıl uygulandığı yer almaktadır. Her ölçümün kullanımına ilişkin ek gereksinimler Teknik Notlar bölümünde ve her modülü yapılandırma yönergelerinde belirtiliyor.

  • Pearson Bağıntısı

    Pearson'un bağıntı istatistiği veya Pearson'ın bağıntı katsayısı, istatistiksel modellerde değer olarak da r bilinir. Herhangi iki değişken için bağıntının gücünü belirten bir değer döndürür

    Pearson'ın bağıntı katsayısı, iki değişkenin değişkenliği kabul edilir ve standart sapmaların çarpımlarına bölünerek hesaplanır. Katsayı, iki değişkende yapılan ölçek değişikliklerini etkilenmez.

  • Karşılıklı Bilgiler

    Karşılıklı bilgi puanı, bir değişkenin başka bir değişkenin değeriyle ilgili belirsizliği azaltmaya (yani etiket) katkısını ölçür. Karşılıklı bilgi puanının birçok farklı varyasyonu, farklı dağıtımlara uyacak şekilde geliştirildi.

    Birçok boyuta sahip veri kümelerinin ortak dağıtımı ve hedef değişkenleri arasındaki karşılıklı bilgileri en üst düzeye çıkararak karşılıklı bilgi puanı özellikle özellik seçiminde yararlıdır.

  • Kendall Correlation

    Kendall'ın derece bağıntısı, farklı sıra değişkenlerinin derecelendirmeleri veya aynı değişkenin farklı derecelendirmeleri arasındaki ilişkiyi ölçen birkaç istatistiktir. Başka bir deyişle, miktarlara göre sıralandıklarında sıralamaların benzerliğini ölçür. Hem bu katsayı hem de Spearman'ın bağıntı katsayısı, parametrik olmayan ve normal olmayan dağıtılmış verilerle kullanım için tasarlanmıştır.

  • Spearman Bağıntısı

    Spearman'ın katsayısı, iki değişken arasındaki istatistiksel bağımlılığın farklı olmayan bir ölçüsüdür ve bazen Yunanca harfiyle de ifade eder. Spearman'ın katsayısı, iki değişkenin monoton olarak ilişkili olduğu dereceyi ifade eder. Ayrıca Spearman sıralama bağıntısı olarak da adlandırılan bu bağıntı, sıra değişkenleriyle birlikte kullanılabilir.

  • Ki Karesi

    İki yöntemli kikare testi, beklenen değerlerin gerçek sonuçlara ne kadar yakın olduğunu ölçüen istatistiksel bir yöntemdir. yöntemi, değişkenlerin rastgele olduğunu ve bağımsız değişkenlerin yeterli bir örneğinden çekeceğini varsayıyor. Elde edilen kikare istatistiği, sonuçların beklenen (rastgele) sonuçtan ne kadar uzak olduğunu gösterir.

  • Fisher Score

    Bir değişkenin bağlı olduğu bilinmeyen parametreyle ilgili olarak sağladığı bilgi miktarını temsil ettiği için, Bazı durumlarda Bilgilerin puanı Olarak Da adlandırılan Fisher puanı (Fisher yöntemi veya Birleştirilmiş Olasılık Puanı) olarak da ifade eder.

    Puan, bilgilerin beklenen değeri ile gözlemlenen değer arasındaki varyans ölçülerek hesaplanır. Varyans simge durumuna küçültülmüşse, bilgiler ekranı kaplar. Puanın sıfır olması beklentisi nedeniyle, Puanın varyansı da Fisher bilgileridir.

  • Sayı Tabanlı

    Sayı tabanlı özellik seçimi, tahminciler hakkında bilgi bulmanın basit ancak nispeten güçlü bir yolu. Sayı tabanlı beceri kazandırmanın temel fikri basittir: Bir sütundaki tek tek değerlerin sayısını hesaparak değerlerin dağılımı ve ağırlığı hakkında bir fikir edinebilirsiniz ve buradan hangi sütunların en önemli bilgileri içerdiğini anlayabilirsiniz.

    Sayı tabanlı özellik seçimi, denetimsiz bir özellik seçimi yöntemidir, yani etiket sütununa ihtiyacınız yoktur. Bu yöntem, bilgileri kaybetmeden verilerin boyutsallıklarını da azaltır.

    Sayı tabanlı özelliklerin nasıl oluşturulacakları ve bunların makine öğrenmesinde neden yararlı olduğu hakkında daha fazla bilgi için bkz. Learning özellikleri.

İpucu

Özel özellik seçimi yöntemi için farklı bir seçenenen ihtiyacınız varsa R Betiği Yürütme modülünü kullanın.

Filter-Based Özelliğini Yapılandırma

Bu modül, özellik puanlarını belirlemek için iki yöntem sağlar:

Geleneksel istatistiksel ölçüm kullanarak özellik puanları oluşturma

  1. Denemenize Filtre Tabanlı Özellik Seçimi modülünü ekleyin. Bunu Studio'daki (klasik) Özellik Seçimi kategorisinde bulabilirsiniz.

  2. Bağlan özellik olan en az iki sütun içeren bir giriş veri kümesi içerir.

    Bir sütunun analiz ve özellik puanı oluşturması için Meta Verileri Düzenle modülünü kullanarak IsFeature özniteliğini ayarlayın.

    Önemli

    Giriş olarak sağlamakta olduğunu sütunların olası özellikler olduğundan emin olmak. Örneğin, tek bir değer içeren bir sütunda bilgi değeri yoktur.

    Hatalı özelliklere neden olacak sütunlar olduğunu biliyorsanız bunları sütun seçiminden kaldırabilirsiniz. Ayrıca Meta Verileri Düzenle modülünü kullanarak bunları Kategorik olarak bayrakla da kullanabilirsiniz.

  3. Özellik puanlama yöntemi için, puanları hesaplamak için aşağıdaki istatistiksel yöntemlerden birini seçin.

    Yöntem Gereksinimler
    Pearson Bağıntısı Etiket metin veya sayısal olabilir. Özelliklerin sayısal olması gerekir.
    Karşılıklı Bilgiler Etiketler ve özellikler metin veya sayısal olabilir. İki kategorik sütun için bilgi işlem özelliğinin önemi için bu yöntemi kullanın.
    Kendall Correlation Etiket metin veya sayısal olabilir ancak özelliklerin sayısal olması gerekir.
    Spearman Bağıntısı Etiket metin veya sayısal olabilir ancak özelliklerin sayısal olması gerekir.
    Ki Karesi Etiketler ve özellikler metin veya sayısal olabilir. İki kategorik sütun için bilgi işlem özelliğinin önemi için bu yöntemi kullanın.
    Fisher Score Etiket metin veya sayısal olabilir ancak özelliklerin sayısal olması gerekir.
    Sayı Bkz. Özellik Count-Based kullanmak için

    İpucu

    Seçilen ölçümü değiştirirseniz diğer tüm seçimler sıfırlanır, bu nedenle önce bu seçeneği ayarlamayı da tercihten emin olun!)

  4. Yalnızca özellik olarak işaretlenmiş sütunlar için puan oluşturmak üzere Yalnızca özellik sütunlarında çalıştır seçeneğini belirleyin.

    Bu seçeneğin seçimini kaldırsanız modül, ölçütlere uyan herhangi bir sütun için istenen özellik sayısı içinde belirtilen sütun sayısına kadar bir puan oluşturur.

  5. Hedef sütun için Sütun seçiciyi başlat'a tıklar ve etiket sütununu adıyla veya dizinine göre (dizinler tek tabanlıdır) seçer.

    İstatistiksel bağıntı içeren tüm yöntemler için etiket sütunu gereklidir. Etiket sütunu seçmez veya birden çok etiket sütunu seçerseniz modül bir tasarım zamanı hatası döndürür.

  6. İstenen özellik sayısı için sonuç olarak döndürüllerini istediğiniz özellik sütunlarının sayısını yazın.

    • Belirtdiğiniz en az özellik sayısı 1'tir, ancak bu değeri artırmanız önerilir.

    • İstenen özelliklerin belirtilen sayısı, veri kümesinde sütun sayısından büyükse, sıfır puana sahip olanlar bile tüm özellikler döndürülür.

    • Özellik sütunlarından daha az sonuç sütunu belirtirsiniz, özellikler azalan puana göre sıra edilir ve yalnızca en üst özellikler döndürülür.

  7. Denemeyi çalıştırın veya Filtre Tabanlı Özellik Seçimi modülünü seçin ve ardından Seçili çalıştır'a tıklayın.

Özellik seçiminin sonuçları

İşlem tamamlandıktan sonra:

  • Analiz edildi özellik sütunlarının ve puanlarının tam listesini görmek için modüle sağ tıklayın, Özellikler'i seçin ve Görselleştir'e tıklayın.

  • Özellik seçim ölçütlerinize göre oluşturulan veri kümelerini görüntülemek için modüle sağ tıklayın, Veri Kümesi'ne tıklayın ve Görselleştir'e tıklayın.

Veri kümesi beklenenden daha az sütun içeriyorsa modül ayarlarını ve giriş olarak sağlanan sütunların veri türlerini kontrol edin. Örneğin, İstenen özellik sayısı'nın 1 olarak ayarlanmış olduğu çıkış veri kümesi yalnızca iki sütun içerir: etiket sütunu ve en yüksek dereceli özellik sütunu.

Sayı tabanlı özellik seçimini kullanma

  1. Denemenize Filtre Tabanlı Özellik Seçimi modülünü ekleyin. Bunu Studio'daki (klasik) modül listesinde, Özellik Seçimi grubunda bulabilirsiniz.

  2. Bağlan özellik olan en az iki sütun içeren bir giriş veri kümesi içerir.

  3. Özellik puanlama yöntemi açılan listesinde istatistiksel yöntemler listesinden Sayı Tabanlı'ı seçin.

  4. Minimum sıfır olmayan öğe sayısı için çıkışa dahil etmek istediğiniz özellik sütunlarının en düşük sayısını girin.

    Varsayılan olarak modül, gereksinimleri karşılayacak tüm sütunların çıkışını oluşturur. Modül, sıfır puanı alan herhangi bir sütunun çıkışını aamaz.

  5. Denemeyi çalıştırın veya yalnızca modülü seçin ve Seçileni Çalıştır'a tıklayın.

Sayı tabanlı özellik seçiminin sonuçları

  • Puanlarıyla birlikte özellik sütunlarının listesini görmek için modüle sağ tıklayın, Özellikler'i seçin ve Görselleştir'etıklayın .
  • Analiz sütunlarını içeren veri kümelerini görmek için modüle sağ tıklayın, Veri Kümesi'ne tıklayın ve Görselleştir'e tıklayın.

Diğer yöntemlerden farklı olarak, Sayı Tabanlı özellik seçimi yöntemi değişkenleri en yüksek puanlara göre sıralamaz, ancak sıfır olmayan puana sahip tüm değişkenleri özgün sıralarında döndürür.

Dize özellikleri her zaman sıfır (0) puan alır ve bu nedenle çıkış değildir.

Örnekler

Özellik seçiminin nasıl kullanıldıklarına örnek olarak aşağıdaki Azure Yapay Zeka Galerisi:

  • Metin Sınıflandırması; Bu örneğin üçüncü adımlarında, en iyi 15 özelliği tanımlamak için Filtre Tabanlı Özellik Seçimi kullanılır. Özellik karması, metin belgelerini sayısal vektörlere dönüştürmek için kullanılır. Ardından, Pearson'ın bağıntısı vektör özellikleri üzerinde kullanılır.

  • Makine öğrenmesi özellik seçimi ve özellik mühendisliği: Bu makale, makine öğrenmesinde özellik seçimi ve özellik mühendisliğine giriş sağlar.

Özellik puanı örneklerini görmek için bkz . Karşılaştırmalı puan tablosu.

Teknik notlar

Bu modülü Veri Dönüştürme'nin altındaFiltreler kategorisinde bulabilirsiniz .

Uygulama ayrıntıları

Sayısal bir özellik ve kategorik bir etikette Pearson Correlation, Kendall Correlation veya Spearman Correlation kullanıyorsanız, özellik puanı aşağıdaki gibi hesaplanır:

  1. Kategorik sütundaki her düzey için sayısal sütunun koşullu ortalama değerini hesap.

  2. Koşullu anlamın sütununu sayısal sütunla irdeler.

Gereksinimler

  • Etiket olarak veya puan sütunu olarak belirlenen herhangi bir sütun için özellik seçim puanı oluşturulamaz .

  • Yöntemin desteklemedığı veri türünde bir sütuna sahip puanlama yöntemi kullanmayı denerse, modül bir hata döndürür veya sütuna sıfır puan atanır.

  • Bir sütun mantıksal (true/false) değerler içeriyorsa True = 1 ve False = 0 olarak işlenir.

  • Bir sütun, Etiket veya Puan olarak belirlenmişse özellikolamaz.

Eksik değerlerin iş nasıl işli olduğu

  • Tüm eksik değerlere sahip herhangi bir sütunu hedef (etiket) sütunu olarak belirtemezseniz.

  • Bir sütunda eksik değerler varsa, sütunun puanı hesaplanırken bunlar yoksayılır.

  • Özellik sütunu olarak belirlenen bir sütunda tüm eksik değerler varsa sıfır puan atanır.

Karşılaştıran puan tablosu

Puanların farklı ölçümler kullanılırken nasıl karşılaştırıldıklarına dair bir fikir vermek için aşağıdaki tabloda otomobil fiyat veri kümesinde yer alan birden çok özellikten bazı özellik seçim puanları ( highway-mpg bağımlı değişkenine göre) verilmiştir.

Özellik sütunu Pearson puanı Sayı puanı Kendall puanı Karşılıklı bilgiler
highway-mpg 1 205 1 1
city-mpg 0.971337 205 0.892472 0.640386
curb-weight 0.797465 171 0.673447 0.326247
horsepower 0.770908 203 0.728289 0.448222
price 0.704692 201 0.651805 0.321788
length 0.704662205 205 0.53193 0.281317
engine-size 0.67747 205 0.581816 0,342399
genişlik 0,677218 205 0,525585 0,285006
bore 0,594572 201 0,467345 0,263846
wheel-base 0,544082 205 0,407696 0,250641
compression-ratio 0,265201 205 0,337031 0,288459
yakıt sistemi yok yok yok 0,308135
make yok yok yok 0,213872
sürücü-tekerlek yok yok yok 0,213171
boy yok yok yok 0,1924
normalleştirilmiş zararlar yok yok yok 0,181734
symboling yok yok yok 0,159521
silindir sayısı yok yok yok 0,154731
Motor-türü yok yok yok 0,135641
ASP. yok yok yok 0,068217
body-style yok yok yok 0,06369
yakıt türü yok yok yok 0,049971
kapıların sayısı yok yok yok 0,017459
motor-konum yok yok yok 0,010166
  • Dizeler dahil tüm sütun türleri için karşılıklı bilgi puanları oluşturulabilir.

  • Bu tabloya, Pearson 'un bağıntı veya sayı tabanlı özellik seçimi gibi diğer puanlar, sayısal değerler gerektirir. Dize özellikleri 0 puanı alır ve bu nedenle çıkışa dahil edilmez. Özel durumlar için Teknik notlar bölümüne bakın.

  • Count tabanlı yöntem, bir etiket sütununu Özellik sütunlarından farklı şekilde kabul etmez.

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Özellik Puanlama yöntemi Liste Puanlama yöntemi Puanlama için kullanılacak yöntemi seçin
Yalnızca özellik sütunlarında çalışır Herhangi biri Boole true Puanlama sürecinde yalnızca özellik sütunlarının kullanılıp kullanılmayacağını belirtin
Hedef sütun Herhangi biri ColumnSelection Hiçbiri Hedef sütunu belirtin
İstenen özellik sayısı >değer Tamsayı 1 Sonuçlarda çıktının kaç Özellik sayısını belirtin
Sıfır olmayan öğe sayısı alt sınırı >değer Tamsayı 1 Çıkışın özelliklerinin sayısını belirtin (Sayaçtabanlı Yöntem için)

Çıkışlar

Ad Tür Description
Filtrelenmiş veri kümesi Veri tablosu Filtrelenmiş veri kümesi
Özellikler Veri tablosu Çıkış sütunlarının ve Özellik seçimi puanlarının adları

Özel durumlar

Özel durum Description
Hata 0001 Belirli bir veya daha fazla veri kümesi sütunu bulunamazsa özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.
Hata 0,0004 Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütunda geçerli modülde desteklenmeyen tür varsa özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

Özellik seçimi
Fisher doğrusal ayrılmış Minant Analizi
A-Z modül listesi