Verileri Kutulara Gruplama
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning taşıma hakkındaki bilgilere bakın.
- Azure Machine Learning hakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Sayısal verileri bölmelere yerleştirir
Kategori: Ölçeklendirme ve Azaltma
Not
Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)
Benzer sürükle ve bırak modülleri de Azure Machine Learning tasarımcısında kullanılabilir.
Modüle genel bakış
Bu makalede, sayıları gruplandırmak veya sürekli veri dağılımını değiştirmek için Machine Learning Studio'da (klasik) Verileri Bölmeler Halinde Gruplandırma modülünün nasıl kullanılacağı açıklanmaktadır.
Verileri Bölmeler Halinde Gruplandırma modülü, verileri bölmek için birden çok seçeneği destekler. Bölme kenarlarının nasıl ayarlandığını ve değerlerin bölmelere nasıl eklendiğini özelleştirebilirsiniz. Örneğin şunları yapabilirsiniz:
- Bölme sınırları olarak görev yapmak için bir dizi değeri el ile yazın.
- Tahmine dayalı modeldeki bölmeleri iyileştirmek amacıyla her aralığın bilgi değerlerini belirlemek için entropi puanlarını hesaplayın. + Nicel veya yüzdebirlik dereceleri kullanarak bölmelere değer atayın.
- Her bölmedeki değerlerin sayısını denetleme de denetlenebilir.
- Değerlerin çift dağılımını bölmelere zorla.
Gruplama ve gruplandırma hakkında daha fazla bilgi
Verileri gruplama veya gruplandırma (bazen niceleme olarak da adlandırılır), sayısal verileri makine öğrenmesi için hazırlamada önemli bir araçtır ve aşağıdaki gibi senaryolarda yararlıdır:
Sürekli sayılardan oluşan bir sütunda etkili bir şekilde modellenemeyecek kadar çok benzersiz değer vardır; bu nedenle, daha küçük bir ayrık aralık kümesi oluşturmak için değerleri gruplara otomatik olarak veya el ile atarsınız.
Örneğin, veri değerlerinin en uygun gruplandırmalarını belirlemek için Verileri Bölmeler halinde Gruplandırma tarafından oluşturulan entropi puanlarını kullanabilir ve bu grupları modelinizde özellik olarak kullanabilirsiniz.
Sayı sütununu belirli aralıkları temsil eden kategorik değerlerle değiştirin.
Örneğin, kullanıcı demografik bilgileri için 1-15, 16-22, 23-30 gibi özel aralıklar belirterek bir yaş sütunundaki değerleri gruplandırmak isteyebilirsiniz.
Bir veri kümesinin, tümü beklenen aralığın dışında olan birkaç aşırı değeri vardır ve bu değerlerin eğitilen model üzerinde büyük bir etkisi vardır. Modeldeki yanlılığı azaltmak için quantiles (veya equal-height) yöntemini kullanarak verileri tekdüzen bir dağılıma dönüştürebilirsiniz.
Bu yöntemle, Verileri Bölmeler Halinde Gruplandırma modülü, her bölmeye yaklaşık olarak aynı sayıda örneğin düşmesini sağlamak için ideal bölme konumlarını ve bölme genişliklerini belirler. Ardından, seçtiğiniz normalleştirme yöntemine bağlı olarak, bölmelerdeki değerler yüzdebirlik dilimlere dönüştürülür veya bir bölme numarasına eşlenir.
Gruplama örnekleri
Aşağıdaki diyagramda quantiles yöntemiyle gruplandırmadan önce ve sonra sayısal değerlerin dağılımı gösterilmektedir. Soldaki ham verilerle karşılaştırıldığında verilerin birleştirilmiş ve birim normal ölçeğine dönüştürüldüğüne dikkat edin.
Gruplandırmaya yönelik başka bir yaklaşım, her grubun eşit sayıda hastaya sahip olduğunu garanti etmek için hastaları çeşitli kontrol ve test gruplarına atamak için Kullanılan Bölmeler halinde Gruplama Verilerinin kullanıldığı Meme kanseri algılama örneğinde gösterilmiştir.
Verileri gruplandırmanın birçok yolu olduğundan, tümü özelleştirilebilir olduğundan, farklı yöntemler ve değerlerle denemeler yapmanız önerilir. Örnekler bölümü, farklı gruplama algoritmalarının nasıl kullanılacağını gösteren örnek denemelerin bağlantılarını içerir.
Grup Verilerini Bölmeler Halinde Yapılandırma
Studio'daki (klasik) denemenize Verileri Bölmelere Gruplandırma modülünü ekleyin. Bu modülü Veri Dönüştürme kategorisinde, Ölçeklendirme ve Azaltma altında bulabilirsiniz.
Bölmeye sayısal veriler içeren veri kümesini Bağlan. Niceleme yalnızca sayısal veri içeren sütunlara uygulanabilir.
Veri kümesi sayısal olmayan sütunlar içeriyorsa, çalışacak sütunların bir alt kümesini seçmek için Veri Kümesindeki Sütunları Seçme modülünü kullanın.
Gruplama modunu belirtin. Gruplama modu diğer parametreleri belirler, bu nedenle önce Gruplama modu seçeneğini belirlediğinizden emin olun! Aşağıdaki gruplama türleri desteklenir:
Entropi MDL: Bu yöntem, tahmin etmek istediğiniz sütunu ve bölmeler halinde gruplandırmak istediğiniz sütunu veya sütunları seçmenizi gerektirir. Daha sonra verileri geçirir ve entropiyi en aza indiren bölme sayısını belirlemeye çalışır. Başka bir deyişle, veri sütununun hedef sütunu en iyi şekilde tahmin etmesini sağlayan bir dizi bölme seçer. Ardından, adlı
<colname>quantized
bir sütundaki verilerinizin her satırıyla ilişkili bölme numarasını döndürür.Entropi MDL yöntemi, iyi bir tahminde bulunmak için başlangıçta verileri bölmenin bir yolunu bulamazsa, tüm verileri tekdüzen bir bölmeye atar. Bu, sütunun iyi bir tahmin aracı olmadığı anlamına gelmez. Bu durumda, entropiyi en aza indirecek bölme sayısını bulmak ve verileri daha iyi bir tahmin aracı yapmak için diğer yöntemleri kullanabilirsiniz.
Bu yöntem gerçek entropi puanlarını döndürmez.
Niceller: Nicel yöntemi, yüzdebirlik derecelerine göre bölmelere değer atar. Niceller eşit yükseklikli gruplama olarak da bilinir.
Eşit Genişlik: Bu seçenekle, toplam bölme sayısını belirtmeniz gerekir. Veri sütunundaki değerler, her bölmenin başlangıç ve bitiş değerleri arasında aynı zaman aralığına sahip olması için bölmelere yerleştirilir. Sonuç olarak, veriler belirli bir nokta etrafında yığılırsa bazı bölmeler daha fazla değere sahip olabilir.
Özel Kenarlar: Her bölmeyi başlatan değerleri belirtebilirsiniz. Kenar değeri her zaman bölmenin alt sınırıdır. Örneğin, değerleri biri 0'dan büyük, biri 0'dan küçük veya 0'a eşit olan iki bölmede gruplandırmak istediğinizi varsayalım. Bu durumda, bölme kenarları için virgülle ayrılmış bölme kenarları listesine 0 yazarsınız. Modülün çıkışı 1 ve 2 olur ve her satır değeri için bin dizinini gösterir.
Özel Başlangıç ve Durdurma ile Eşit Genişlik: Bu yöntem Eşit Genişlik seçeneği gibidir, ancak hem alt hem de üst bölme sınırlarını belirtebilirsiniz.
Bölme sayısı: Entropi MDL, Quantiles ve Eşit Genişlikli gruplama modlarını kullanıyorsanız, oluşturmak istediğiniz bölme sayısını veya niceliği belirtmek için bu seçeneği kullanın.
Bölme sütunları için, bölmek istediğiniz değerleri içeren sütunları seçmek için Sütun Seçici'yi kullanın. Sütunlar sayısal bir veri türü olmalıdır.
Aynı gruplama kuralı, seçtiğiniz tüm geçerli sütunlara uygulanır. Bu nedenle, farklı bir yöntem kullanarak bazı sütunları bölmeniz gerekiyorsa, her sütun kümesi için Verileri Bölmeler Halinde Gruplandır'ın ayrı bir örneğini kullanın.
Uyarı
İzin verilmeyen bir sütun seçerseniz çalışma zamanı hatası oluşturulur. Modül, izin verilmeyen türde bir sütun bulur bulmaz bir hata döndürür. Hata alırsanız tüm seçili sütunları gözden geçirin. Hata tüm geçersiz sütunları listelemez.
Çıkış modu için, nicelenmiş değerlerin çıkışını nasıl yapmak istediğinizi belirtin.
Ekleme: Binned değerleriyle yeni bir sütun oluşturur ve bunu giriş tablosuna ekler.
Inplace: Özgün değerleri veri kümesindeki yeni değerlerle değiştirir.
ResultOnly: Yalnızca sonuç sütunlarını döndürür.
Quantiles gruplama modunu seçerseniz, nicellere göre sıralamadan önce değerlerin nasıl normalleştirileceğini belirlemek için Quantile normalleştirme seçeneğini kullanın. Değerleri normalleştirmenin değerleri dönüştürdüğünü, ancak son bölme sayısını etkilemediğini unutmayın. Örnek için bkz. Farklı Normalleştirme Yöntemlerinin Etkileri.
Aşağıdaki normalleştirme türleri desteklenir:
Yüzde: Değerler [0,100] aralığında normalleştirilir
PQuantile: Değerler [0,1] aralığında normalleştirilir
QuantileIndex: Değerler [1,bölme sayısı] aralığında normalleştirilir
Özel Kenarlar seçeneğini belirlerseniz, + Virgülle ayrılmış bölme kenarları metin kutusuna bölme kenarları olarak kullanılacak virgülle ayrılmış bir sayı listesi yazın. Değerler bölmeleri bölen noktayı işaretler. Bu nedenle, bir bölme kenar değeri yazarsanız iki bölme oluşturulur; İki bölme kenar değeri yazarsanız, üç bölme vb. oluşturulur.
Değerler, bölmelerin oluşturulacağı düzende, en düşükten en yükseğe sıralanmalıdır.
Özel Başlangıç ve Durdurma ile Eşit Genişlik seçeneğini kullanırsanız, bölmelerin sınırlarını belirtmeniz gerekir.
İlk kenar konumu metin kutusuna bir değer yazarak ilk bölmenin alt sınırını tanımlayın.
Son kenar konumu metin kutusuna bir değer yazarak son bölmenin alt sınırını tanımlayın.
Sütunları kategorik olarak etiketle: İkili değerlerin sütununa otomatik olarak meta veri bayrağı eklemek için bu seçeneği belirleyin. Meta veri bayrağı, nicelenmiş sütunların kategorik değişkenler olarak işlenmesi gerektiğini gösterir.
Denemeyi çalıştırın veya bu modülü seçip Seçili çalıştır'a tıklayın.
Sonuçlar
Verileri Bölmeler Halinde Gruplandırma modülü, her öğenin belirtilen moda göre gruplandığı bir veri kümesi döndürür.
Ayrıca, aynı gruplama modunu ve parametreleri kullanarak yeni veri örneklerini bölmek için Dönüştürme Uygulama modülüne geçirilebilen bir işlev olan bir Gruplama dönüşümü döndürür.
Gruplama yönteminin tahmin aracı olarak ne kadar iyi çalıştığını görmek için Veri Grubu'ndan Bölmelere veri kümesi çıkışına tıklayabilir ve etiket sütununu gruplanmış sütunla karşılaştırabilirsiniz. Bölmelere gruplandırma tahmine dayalıysa, sekmeler arası matristeki değerler birkaç hücrede yoğunlaşmalıdır.
İpucu
Eğitim verilerinizde gruplama kullanıyorsanız, test ve tahmin için kullandığınız verilerde aynı gruplama yöntemini kullanmanız gerektiğini unutmayın. Buna gruplama yöntemi, bölme konumları ve bölme genişlikleri dahildir.
Verilerin her zaman aynı gruplama yöntemi kullanılarak dönüştürülmesini sağlamak için, Dönüştürmeyi Uygula modülünü kullanarak yararlı veri dönüşümlerini kaydetmenizi ve sonra bunları diğer veri kümelerine uygulamanızı öneririz.
Örnekler
Makine öğrenmesi senaryolarında nicelemenin nasıl uygulandığına ilişkin örnekler için bkz. Azure AI Galerisi:
- Meme kanseri tespiti: Bu örnekte, hasta kimliği alanı kullanılarak hastaları eşit gruplara ayırmak için binning kullanılmaktadır.
- Uçuş gecikmesi tahmini: Olayları 10 bölmeye ayırmak için nicel normalleştirmeyi kullanır.
- Twitter yaklaşım analizi: Puanlar, derecelendirme puanlarını temsil eden beş bölmede gruplandırılır.
Teknik notlar
Bu bölüm uygulama ayrıntılarını, ipuçlarını ve sık sorulan soruların yanıtlarını içerir.
Farklı normalleştirme yöntemlerinin etkileri
Quantile normalleştirme seçeneğini seçerseniz, değerler gruplandırmadan önce dönüştürülür. Bu nedenle, normalleştirme için seçtiğiniz yöntemin sayısal değerler üzerinde güçlü bir etkisi vardır.
Örneğin, aşağıdaki tabloda Teleskop veri kümesindeki tek bir sütundaki fLength
değerlerin normalleştirme yöntemlerinin her biriyle nasıl dönüştürüldüğü gösterilmektedir. sütunu, fLength
her seçenekten çıkış değerlerinin çizimi için rastgele seçilmiştir ve normal bir dağılımı yoktur.
Kaynak (fLength) | pQuantile | QuantileIndex | Yüzde |
---|---|---|---|
28.7967 | 0.363636 | 4 | 36.363636 |
31.6036 | 0.454545 | 5 | 45.454545 |
162.052 | 0.909091 | 10 | 90.909091 |
23.8172 | 0.272727 | 3 | 27.272727 |
Her yöntem için gruplama sonuçları benzerdir.
Aşağıdaki grafikte, sütundaki değerlerin, varsayılan olarak 10 bölme kullanılarak gruplandırmadan önceki ve sonraki dağılımı gösterilmektedir.
Uygulama ayrıntıları
Niceleme sırasında her sayı, değerini bölme kenarlarının değerleriyle karşılaştırarak bir bölmeyle eşlenir.
Örneğin, değer 1,5 ve bölme kenarları 1, 2 ve 3 ise, öğe 2 numaralı bölmeyle eşlenir. 0,5 değeri 1 numaralı bölmeye (taşma bölmesi) eşlenir ve 3,5 değeri 4 numaralı bölmeye (taşma bölmesi) eşlenir.
Bölme sütunu (niceleme) seyrek ise, sonuçta elde edilen sütun doldurulduğunda bölme dizini uzaklığı (nicelik uzaklığı) kullanılır. Uzaklık, seyrek 0'ın her zaman 0 dizini olan bölmeye (başka bir deyişle, 0 değeriyle nicel) gitmesi için seçilir.
Seyrek sıfırlar girişten çıkış sütununa yayılır.
Yoğun sütunların işlenmesi her zaman minimum bin dizini 1'e eşit olan sonuçlar üretir; başka bir ifadeyle, minimum miktar değeri sütundaki minimum değere eşit olur. Aynı zamanda seyrek bir sütunun işlenmesi, minimum bin dizini (minimum nicelik değeri) değişkenli bir sonuç üretir.
Tüm NaN'ler ve eksik değerler giriş sütunundan çıkış sütununa yayılır. Tek özel durum, modülün nicel dizinler döndürmesi durumudur. Bu durumda tüm NaN'ler eksik değerlere yükseltilir.
Bölme dizinleri 1 tabanlıdır. Bu, nicellerin doğal kuralıdır (1. nicel, 2. nicel vb.). Tek özel durum, bölme sütunun seyrek olmasıdır.
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri Tablosu | Analiz edilecek veri kümesi |
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Gruplama modu | Liste | QuantizationMode | Dağılım Dilimleri | Bir gruplama yöntemi seçin |
Depo kutusuna sütunlar | herhangi biri | ColumnSelection | SayısalTüm | Niceleme için sütun seçme |
Çıkış modu | herhangi biri | Çıktı | Nicelenmiş sütunların çıkışının nasıl olması gerektiğini belirtme | |
Sütunları kategorik olarak etiketleme | herhangi biri | Boole | true | Çıkış sütunlarının kategorik olarak etiketlenip etiketlenmediğini belirtin |
Bölme sayısı | >=1 | Tamsayı | 10 | İstenen bölme sayısını belirtin |
Nicel normalleştirme | herhangi biri | BinningNormalization | Nicelleri normalleştirme yöntemini seçme | |
İlk kenar konumu | herhangi biri | Float | 0,0 | İlk bölme kenarı için değeri belirtin |
Bölme genişliği | herhangi biri | Float | 0,5 | Özel bölme genişliği belirtme |
Son kenar konumu | herhangi biri | Float | 1.0 | Son bölme kenarı için değeri belirtin |
Bölme kenarlarının virgülle ayrılmış listesi | herhangi biri | Dize | Bölme kenarları olarak kullanılacak sayıların virgülle ayrılmış listesini yazın |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Nicelenmiş veri kümesi | Veri Tablosu | Nicelenmiş sütunlar içeren veri kümesi |
Gruplama dönüşümü | ITransform arabirimi | Veri kümesine niceleme uygulayan dönüştürme |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0003 | Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur. |
Hata 0004 | Parametre belirli bir değerden küçük veya buna eşitse özel durum oluşur. |
Hata 0011 | Geçirilen sütun kümesi bağımsız değişkeni veri kümesi sütunlarından hiçbirine uygulanmazsa özel durum oluşur. |
Hata 0021 | Modüle geçirilen bazı veri kümelerindeki satır sayısı çok küçükse özel durum oluşur. |
Hata 0024 | Veri kümesi etiket sütunu içermiyorsa özel durum oluşur. |
Hata 0020 | Modüle geçirilen bazı veri kümelerindeki sütun sayısı çok küçükse özel durum oluşur. |
Hata 0038 | Beklenen öğe sayısının tam bir değer olması gerekirken değilse özel durum oluşur. |
Hata 0005 | Parametre belirli bir değerden küçükse özel durum oluşur. |
Hata 0002 | Bir veya daha fazla parametre ayrıştırılamadıysa veya belirtilen türden hedef yöntem türü için gerekli olarak dönüştürülemiyorsa özel durum oluşur. |
Hata 0019 | Sütunun sıralanmış değerler içermesi bekleniyorsa, ancak içermiyorsa özel durum oluşur. |
Hata 0039 | İşlem başarısız olursa özel durum oluşur. |
Hata 0075 | Bir veri kümesinin miktarını belirlemek için geçersiz bir gruplama işlevi kullanıldığında özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. hata kodları Machine Learning.
API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.
Ayrıca bkz.
Ölçeklendirme ve Azaltma
Verileri Normalleştirme
Değerleri Kırpma