Değerleri Kırpma
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
- Daha fazla bilgi Azure Machine Learning.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Outliers ve klipleri algılar veya değerlerini değiştirir
Kategori: Veri Dönüştürme / Ölçeklendirme ve Azaltma
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Modüle genel bakış
Bu makalede, belirli bir eşiğin üzerinde veya altında olan veri değerlerini tanımlamak ve isteğe bağlı olarak değiştirmek için Machine Learning Studio'da (klasik) Clip Values modülünün nasıl kullanımı açıklanmıştır. Bu, outliers'ı kaldırmak veya bunları bir ortalama, sabit veya başka bir alternatif değerle değiştirmek istediğiniz zaman kullanışlıdır.
Modülü, kırpmak istediğiniz sayıların olduğu bir veri kümesine bağlar, çalışılır sütunları seçer ve ardından bir eşik veya değer aralığı ve değiştirme yöntemi ayarlayın. Modül yalnızca sonuçları veya özgün veri kümesine eklenen değiştirilen değerleri çıkış olarak verir.
Kırpma Değerlerini yapılandırma
Başlamadan önce, kırpmak istediğiniz sütunları ve kullanmak istediğiniz yöntemi tanımlayabilirsiniz. Önce verilerin küçük bir alt kümesinde herhangi bir kırpma yöntemini test etmek öneririz.
Modül, seçime dahil etmek istediğiniz tüm sütunlara aynı ölçütleri ve değiştirme yöntemini uygular. Bu nedenle, değiştirmek istemeyebilirsiniz sütunları dışlamadan emin olun.
Bazı sütunlara kırpma yöntemleri veya farklı ölçütler uygulamalısanız, her benzer sütun kümesi için yeni bir Küçük Değer örneği kullanmelisiniz.
Clip Values modülünü denemenize ekleyin ve değiştirmek istediğiniz veri kümesine bağlayın. Bu modülü Veri Dönüştürme'nin altında Ölçek ve Azaltma kategorisinde bulabilirsiniz.
Sütun listesi'nin altında, Küçük Değer uygulanacak sütunları seçmek için Sütun Seçici'yi kullanın.
Eşik kümesi için açılan listeden aşağıdaki seçeneklerden birini belirleyin. Bu seçenekler, kabul edilebilir değerler ve kırpılmış olması gereken değerler için üst ve alt sınırları ayarlamayı belirler.
ClipPeaks: Değerleri en yüksek değerlere göre kırparak yalnızca bir üst sınır belirtirsiniz. Bu sınır değerinden büyük değerler değiştirilir veya kaldırılır.
ClipSubpeaks: Değerleri alt tepe değerlerine göre kırparak yalnızca daha düşük bir sınır belirtirsiniz. Bu sınır değerinden küçük değerler değiştirilir veya kaldırılır.
ClipPeaksAndSubpeaks: Değerleri en yüksek ve alt tepe değerlerine göre kırparak hem üst hem de alt sınırları belirtebilirsiniz. Bu aralığın dışındaki değerler değiştirilir veya kaldırılır. Sınır değerleriyle eşan değerler değişmez.
Önceki adımda seçtiğiniz seçime bağlı olarak aşağıdaki eşik değerlerini ayarlayın:
- Daha düşük eşik: Yalnızca ClipSubPeaks'ı seçerseniz görüntülenir
- Üst eşik: Yalnızca ClipPeaks'i seçerseniz görüntülenir
- Eşik: Yalnızca ClipPeaksAndSubPeaks'ı seçerseniz görüntülenir
Her eşik türü için Sabit veya Yüzdebirlikseçin.
Sabit'i seçmeniz halinde metin kutusuna maksimum veya minimum değeri yazın. Örneğin, 999 değerinin yer tutucu değer olarak kullanılmış olduğunu bildiğinizi varsayalım. Üst eşik için Sabit'i seçebilir ve üst eşiğin Sabit değeri olarak 999 yazın.
Yüzdebirlik'i seçerseniz sütun değerlerini yüzdebirlik aralığıyla kısıtlarsınız.
Örneğin, yalnızca 10-80 yüzdebirlik aralıkta yer alan değerleri tutmak ve diğer tüm değerleri değiştirmek istediğiniz varsayın. Yüzdebirlik'i ve ardından daha düşük eşiğin Yüzdebirlik değeri için 10, üst eşiğin Yüzdebirlik değeri için 80 yazın.
Yüzdebirlik aralıklarının kullanımına bazı örnekler için yüzdebirlikler bölümüne bakın.
Bir yedek değer tanımlayın.
Az önce belirttiğiniz sınırlarla tam olarak eşan sayılar izin verilen değer aralığının içinde kabul edilir ve bu nedenle değiştirilemez veya kaldırılamaz. Belirtilen aralığın dışında yer alan tüm sayılar, yerine geçen değerle değiştirilir.
- En yüksek değerlerin yerine değer girin: Belirtilen eşiğin üzerinde olan tüm sütun değerlerinin yerine konacak değeri tanımlar.
- Subpeaks için yerine değer: Belirtilen eşiğin altında olan tüm sütun değerlerinin yerine kullanmak üzere değeri tanımlar.
- ClipPeaksAndSubpeaks seçeneğini kullanırsanız, büyük ve alt kırpılmış değerler için ayrı değiştirme değerleri belirtebilirsiniz.
Aşağıdaki değiştirme değerleri de destekler:
Eşik: Kırpılmış değerleri belirtilen eşik değeriyle değiştirir.
Ortalama: Kırpılmış değerleri sütun değerlerinin ortalama değeriyle değiştirir. Değerler kırpmadan önce ortalama hesaplanır.
Ortaç: Kırpılmış değerleri sütun değerlerinin ortası ile değiştirir. Değerler kırpmadan önce orta değer hesaplanır.
Eksik. Kırpılmış değerleri eksik (boş) değerle değiştirir.
Gösterge sütunları ekle: Belirtilen kırpma işlemiyle ilgili satırdaki verilere uygulanıp uygulanmamalarını söyleyen yeni bir sütun oluşturmak için bu seçeneği belirleyin. Bu seçenek özellikle yeni bir kırpma ve değiştirme değerleri kümesi test ederken kullanışlıdır.
Üzerine yaz bayrağı: Yeni değerlerin nasıl oluşturul olacağını gösterir. Varsayılan olarak, Kırpma Değerleri , en yüksek değerleri istenen eşiğe göre kırpılmış yeni bir sütun oluşturun. Yeni değerler özgün sütunun üzerine yazarak.
Özgün sütunu tutmak ve kırpılmış değerlerle yeni bir sütun eklemek için bu seçeneğin seçimini kaldırın.
Denemeyi çalıştırın.
Değerleri Kırpma modülünün çıkışına sağ tıklayın ve Görselleştir'i seçerek değerleri gözden geçirin ve kırpma işlemiyle beklentilerinizi karşılanın.
Örnekler
Bu modülün makine öğrenmesi denemelerinde nasıl kullanılı olduğunu görmek için aşağıdaki Azure Yapay Zeka Galerisi:
- Orman Yangını outliers: Veri biliminde EdX birlikte kullanımından alınan bu örnek, Orman Yangınları örnek veri kümesi kullanılarak kırpma yöntemlerinin nasıl kullanılagelmektedir.
Yüzdebirlikleri kullanarak kırpma
Yüzdebirlik değerlerine göre kırpmanın nasıl çalıştığını anlamak için, 1-10 değerlerinden her biri bir örneği olan 10 satırlı bir veri kümesi düşünün.
Üst eşik olarak yüzdebirlik değeri kullanıyorsanız, 90. yüzdebirlik değerde, veri kümesinde yer alan tüm değerlerin yüzde 90'ı bu değerden küçük olması gerekir.
Yüzdebirlik değeri daha düşük eşik olarak kullanıyorsanız, 10. yüzdebirlik değerde veri kümesinde yer alan tüm değerlerin yüzde 10'uz o değerden küçük olması gerekir.
Eşik kümesi içinClipPeaksAndSubPeaks'ı seçin.
Üst eşik içinYüzdebirlik'i seçin ve Yüzdebirlik numarası için 90 yazın.
Üst yedek değer için EksikDeğer'i seçin.
Düşük eşik içinYüzdebirlik'i seçin ve Yüzdebirlik sayı için 10 yazın.
Düşük yedek değer için Eksik Değer'i seçin.
Üzerine yaz bayrağının seçimini kaldırın ve Gösterge sütunu ekle seçeneğini belirleyin.
Şimdi üst yüzdebirlik eşik olarak 60 ve daha düşük yüzdebirlik eşik olarak 30 kullanarak aynı denemeyi deneyin ve değiştirme değeri olarak eşik değerini kullanın. Aşağıdaki tabloda bu iki sonuç karşılaştırıldı:
yerine eksik; Üst eşik = 90; Düşük eşik = 10
yerine eşik; Üst yüzdebirlik = 60; Daha düşük yüzdebirlik = 30
Özgün veriler | yerine eksik | eşiğiyle değiştirin |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Teknik notlar
Küçük Değerler'i yalnızca sayı veya tarih/saat değerleri içeren sütunlarda kullanabilirsiniz.
Metin veya kategorik veriler içeren sütunlar dahil ettiysanız sütunlar atlanır.
Bir sütun için ortalama veya orta değer hesaplandı olduğunda eksik değerler yoksayılır.
Kırpma Değerleri , ordinal verileri desteklemez.
Çıkış veri kümesine yayıldıklarda eksik değerler değiştirilmez. Kırpılmış değerleri gösteren sütun, eksik değerler için her zaman FALSE içerir.
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri Tablosu | Giriş veri kümesi |
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Gösterge sütunları ekleme | TRUE/FALSE | Boole | FALSE | Bir değerin kırpması için gösterge ek isteyip yapılmaz |
Daha düşük eşik için sabit değer | herhangi biri | Float | -1 | Alt değerlerin kırpılmış olduğu değer |
Üst eşik için sabit değer | herhangi biri | Float | 1 | En yüksek değerlerin kırpılmış olduğu değer |
Düşük eşiğin sabit değeri | herhangi biri | Float | -1 | Alt değerlerin kırpılmış olduğu değer |
Üst eşiğin sabit değeri | >=1 | Float | 1 | En yüksek değerlerin kırpılmış olduğu değer |
Sütun listesi | ColumnSelection | Kırpılır sütunların listesi | ||
Daha düşük yedek değer | Eşik Ortalama Ortanca Eksik |
SubstituteValues | Eşik | Alt kırpmalar için kullanılan değer |
Daha düşük eşik | Sabit Yüzdebirlik |
Eşik Modu | Sabit | Alt değerlerin kırpılmış modunun altındaki değer |
Üzerine yaz bayrağı | TRUE/FALSE | Boole | TRUE | Kırpılmış veri sütunlarını giriş veri sütunlarını üzerine yazmanın gerekip gerek olmadığı |
Daha düşük eşik için yüzdebirlik sayısı | [1;99] | Tamsayı | 1 | Alt ayaların kırpılmış olduğu yüzdebirlik sayı |
Üst eşik için yüzdebirlik sayısı | [1;99] | Tamsayı | 99 | En yüksek artışların kırpılmış olduğu yüzdebirlik sayı |
Yüzdebirlik alt eşik sayısı | [1; 99] | Tamsayı | 1 | Alt tepe noktalarının kırpıldığı yüzdebirlik sayısı |
Yüzdebirlik üst eşik sayısı | [1; 99] | Tamsayı | 99 | En üst sınırın kırpıldığı yüzdebirlik sayısı |
Eşik kümesi | Clienppeaks ClipSubPeaks Clienppeaksandsubpeaks |
Eşik kümesi | Clienppeaks | Kullanılacak eşik türünü belirtir |
Tepe noktaları için yedek değer | Eşik Ortalama Ortanca Bulunmayan |
SubstituteValues | Eşik | Kırpma üst değerleri sırasında kullanılan değer |
Alt Peaks için yedek değer | Eşik Ortalama Ortanca Bulunmayan |
SubstituteValues | Eşik | Kırpma alt tepe noktaları sırasında kullanılan değer |
Eşik | Sabit Özelliğindeki |
Eşik modu | Sabit | Üst ve alt sınırın kırpıldığı ve altındaki değer |
Üst yedek değer | Eşik Ortalama Ortanca Bulunmayan |
Eşik | Eşik | Kırpma için kullanılan değer |
Üst eşik | Sabit Özelliğindeki |
Eşik modu | Sabit | En sivri düzeyin kırpıldığı değer |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri tablosu | Kırpılan sütunları olan veri kümesi |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0011 | Geçirilen sütun kümesi bağımsız değişkeni herhangi bir veri kümesi sütunu için uygulanmemişse özel durum oluşur. |
Hata 0017 | Belirtilen bir veya daha fazla sütunda geçerli modülde desteklenmeyen tür varsa özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.
apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.