Aracılığıyla paylaş


Özellik seçimi modülleri

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, özellik seçimi için kullanabileceğiniz Machine Learning Studio 'daki (klasik) modüller açıklanmaktadır.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Özellik seçimi, Machine Learning 'de önemli bir araçtır. Machine Learning Studio (klasik), özellik seçimi gerçekleştirmek için birden çok yöntem sağlar. Sahip olduğunuz veri türüne ve uygulanan istatistiksel tekniğin gereksinimlerine bağlı olarak bir özellik seçimi yöntemi seçin.

Bu makalede şunları ele alınmaktadır:

Machine Learning Studio 'daki (klasik) her özellik seçimi modülü girdi olarak bir veri kümesi kullanır. Ardından, modül girdi olarak girilen veri sütunlarına iyi bilinen istatistiksel yöntemler uygular. Çıktı, en iyi bilgi değerine sahip sütunları belirlemenize yardımcı olabilecek bir ölçümler kümesidir.

Özellik seçimi hakkında

Makine öğrenimi ve istatistikler bölümünde, Özellik seçimi , bir analitik model oluştururken kullanılacak ilgili, yararlı özelliklerin bir alt kümesini seçme işlemidir. Özellik seçimi, veri alanını en değerli girişlere daraltmaya yardımcı olur. Veri alanını daraltma, paraziti azaltmaya ve eğitim performansını iyileştirmenize yardımcı olur.

Genellikle, özellikler bir özellik Mühendisliği süreci aracılığıyla ham verilerden oluşturulur. Örneğin, bir zaman damgası, bilgiler, söz konusu konuyla ilgili, tatil ve iş günü gibi, sorun için uygun olan günler, aylar veya Kategoriler birimlerine dönüştürülene kadar, modelleme için yararlı olmayabilir.

Machine Learning 'in yeni kullanıcıları, kullanılabilir tüm verileri dahil etmek isteyebilir. Bu, algoritmanın daha fazla veri kullanarak ilgi çekici bir şeyler bulabileceğini bekleyebilir. Ancak, özellik seçimi genellikle modelinizi iyileştirebilir ve sık karşılaşılan sorunları engelleyebilir:

  • Veriler, şu anda seçili olan özelliklerden daha fazla bilgi sağlayan gereksiz veya ilgisiz özellikler içerir.
  • Veriler hiçbir bağlamda yararlı bilgiler sağlamayan ilgisiz özellikler içerir. İlgisiz alanları eklemek, verileri eğitmek için gereken süreyi artmaz, ancak kötü sonuçlara yol açabilir.
  • Bazı algoritmalarda eğitim verilerinde yinelenen bilgilerin bulunması, çok olmaityadlı bir olgudur ile sonuçlanabilmektedir. Birden çok olbol değerinde, iki derecede bağıntılı değişkenlerin varlığı diğer değişkenlerin hesaplamalarının daha az doğru olmasına neden olabilir.

İpucu

Machine Learning Studio 'daki (klasik) bazı makine öğrenimi algoritmaları, eğitim sürecinin bir parçası olarak özellik seçimi veya boyut azaltmasını de kullanır. Bu öğrenenler kullandığınızda, özellik seçimi sürecini atlayabilir ve algoritmanın en iyi girdilere karar vermesini sağlayabilirsiniz.

Bir deneyde özellik seçimini kullanma

Özellik seçimi genellikle verileri araştırırken ve yeni bir model geliştirirken gerçekleştirilir. Özellik seçimini kullandığınızda bu ipuçlarını aklınızda bulundurun:

  • Test edilirken, hangi sütunların kullanılacağını bildiren puanlar oluşturmak için denemenize Özellik seçimi ekleyin.
  • Bir modeli çalıştırdığınızda özellik seçimini deneyden kaldırın.
  • Verilerin ve en iyi özelliklerin değişmediğinden emin olmak için özellik seçimini düzenli aralıklarla çalıştırın.

Özellik seçimi, mevcut verilerden yeni özellikler oluşturulmasına odaklanan Özellik mühendisinden farklıdır.

Kaynaklar

Machine Learning Studio 'daki özellik seçimi yöntemleri (klasik)

aşağıdaki özellik seçimi modülleri Machine Learning Studio 'da (klasik) sunulmaktadır.

Filtre Tabanlı Özellik Seçimi

Filtre tabanlı özellik seçimi modülünü kullandığınızda, iyi bilinen özellik seçme yöntemleri arasından seçim yapabilirsiniz. Modül hem özellik seçim istatistiklerini hem de filtrelenmiş veri kümesini çıktı olarak verir.

Filtre seçim yöntemi seçiminiz, sahip olduğunuz giriş verilerinin bir bölümüne bağlıdır.

Yöntem Desteklenen özellik girişleri Desteklenen Etiketler
Pearson bağıntı Yalnızca sayısal ve mantıksal sütunlar Tek bir sayısal veya mantıksal sütun
Karşılıklı bilgi puanı Tüm veri türleri Herhangi bir veri türünün tek bir sütunu
Kendhepsi bağıntı katsayısı Yalnızca sayısal ve mantıksal sütunlar Tek bir sayısal veya mantıksal sütun

Sütunlar, derecelendirilecek değerlere sahip olmalıdır
Spearman 'ın bağıntı katsayısı Yalnızca sayısal ve mantıksal sütunlar Tek bir sayısal veya mantıksal sütun
Çi-kare içinde istatistik Tüm veri türleri Herhangi bir veri türünün tek bir sütunu
Fisher puanı Yalnızca sayısal ve mantıksal sütunlar Tek bir sayısal veya mantıksal sütun

Dize sütunlarına 0 puanı atanır
Sayı tabanlı özellik seçimi Tüm veri türleri Etiket sütunu gerekli değil

Fisher doğrusal ayrılmış Minant Analizi

Doğrusal ayırt edici analiz, sayısal değişkenleri tek bir kategorik hedefle birlikte sınıflandırmak için kullanabileceğiniz denetimli bir öğrenme tekniğidir. Yöntemi, grupları en iyi şekilde ayıran özellik veya parametrelerin birleşimini tanımladığından, özellik seçimi için yararlıdır.

Gözden geçirilmesi gereken bir puan kümesi oluşturmak için, Fisher doğrusal ayrılmış Minant analiz modülünü kullanabilir veya eğitim için modül tarafından oluşturulan değiştirme veri kümesini kullanabilirsiniz.

Permütasyon Özelliği Önem Derecesi

Veri kümenizdeki herhangi bir özellik kümesinin etkisinin benzetimini yapmak için permütasyon özelliği önem derecesi ' ni kullanın. Modül, özellik değerlerini rastgele karıştırmayı temel alarak bir modelin performans puanlarını hesaplar.

Modülün döndürdüğü puanlar, değerler değiştiğinde eğitilen bir modelin doğruluğunu olası değişikliği temsil eder. Modeldeki ayrı değişkenlerin etkisini tespit etmek için puanları kullanabilirsiniz.

Özellik seçimini birleştiren makine öğrenimi algoritmaları

Machine Learning Studio 'daki (klasik) bazı makine öğrenimi algoritmaları eğitim sırasında özellik seçimini iyileştirin. Özellik seçimine yardımcı olan parametreler de sunabilir. Özellik seçme için kendi buluşsal yöntemi olan bir yöntem kullanıyorsanız, özellikler için önceden seçim yapmak yerine bu buluşsal yöntemi kullanmak genellikle daha iyidir.

Bu algoritmalar ve Özellik seçimi yöntemleri dahili olarak kullanılır:

  • Sınıflandırma ve gerileme için artırılmış karar ağacı modelleri

    Bu modüllerde, dahili olarak bir özellik özeti oluşturulur. Ağırlığı 0 olan özellikler ağaç bölmeleri tarafından kullanılamaz. En iyi eğitilmiş modeli görselleştirin, ağaçlara bakabilirsiniz. Bir özellik hiçbir zaman herhangi bir ağaçta kullanılmamışsa, özellik büyük olasılıkla kaldırmaya adaydır. Seçimi iyileştirmek için parametre tarama kullanmak da iyi bir fikirdir.

  • Lojistik regresyon modelleri ve doğrusal modeller

    Çok sınıflı ve ikili lojistik regresyon modülleri L1 ve L2 düzenlileştirmeyi destekler. Düzenlileştirme, öğrenilen modelin bir yönünü el ile belirtmek için eğitim sırasında kısıtlama eklemenin bir yoludur. Normalleştirme genellikle fazla kullanılabilirliği önlemek için kullanılır. Machine Learning Studio (klasik), doğrusal sınıflandırma algoritmalarında ağırlık vektörü L1 veya L2 normları için düzenlileştirmeyi destekler:

    • Amaç mümkün olduğunca seyrek bir modele sahip olmaksa L1 düzenlileştirme yararlı olur.
    • L2 düzenlileştirmesi, ağırlık vektörü içinde yer alan tek bir koordinatı çok fazla büyüklüğünün büyümesine engel olur. Amaç, genel ağırlıkları küçük olan bir modele sahip olmaksa yararlıdır.
    • L1 ile normalleştirilmiş lojistik regresyon, özelliklere 0 ağırlığı atama konusunda daha agresiftir. Kaldırılabilir özellikleri tanımlamada yararlıdır.

Teknik notlar

Sayısal ve mantıksal sütunları destekleyen tüm özellik seçim modülleri ve analitik yöntemler de tarih-saat ve zamanpan sütunlarını destekler. Bu sütunlar, her değerin tık sayısına eşit olduğu basit sayısal sütunlar olarak kabul edilir.

Aşağıdaki modüller Özellik Seçimi kategorisinde yer almaktadır ancak bunları ilgili görevler için kullanabilirsiniz. Modüller verilerinizin boyutsallıklarını azaltmanıza veya bağıntılar bu konuda size yardımcı olabilir:

Çok sayıda sütunu olan bir veri kümeniz varsa, özgün veriler hakkında en fazla bilgi içeren sütunları algılamak için Asıl Bileşen Analizi modülünü kullanın.

Bu modül, Veri Dönüştürme kategorisinde, Ölçek ve Azaltma'nın altında yer almaktadır.

Sayı tabanlı özellik kazandırma, büyük veri kümelerini kullanarak yararlı özellikleri belirlemek için kullanabileceğiniz yeni bir tekniktir. En iyi özellikleri bulmak, yeni verilerle kullanmak üzere bir özellik kümesi kaydetmek veya mevcut bir özellik kümesi güncelleştirmek için veri kümelerini analiz etmek için bu modülleri kullanın.

Giriş veri kümesinde olası her değişken çifti için bir dizi Pearson bağıntı katsayısı hesaplamak için bu modülü kullanın. Pearson'ın R testi olarak da adlandırılan Pearson bağıntı katsayısı, iki değişken arasındaki doğrusal ilişkiyi ölçer istatistiksel bir değerdir.

Bu modül İstatistiksel İşlevler kategorisindedir .

Modül listesi

Özellik Seçimi kategorisi şu modülleri içerir:

Ayrıca bkz.