Verileri Bölmeler bileşeninde gruplandırma

Bu makalede, sayıları gruplandırmak veya sürekli verilerin dağılımını değiştirmek için Azure Machine Learning tasarımcısında Verileri Bölmeler halinde Gruplandır bileşeninin nasıl kullanılacağı açıklanmaktadır.

Verileri Bölmeler Halinde Gruplandır bileşeni, verileri bölmek için birden çok seçeneği destekler. Bölme kenarlarının nasıl ayarlandığını ve değerlerin bölmelere nasıl eklendiğini özelleştirebilirsiniz. Örneğin şunları yapabilirsiniz:

  • Bölme sınırları olarak görev yapmak için bir dizi değeri el ile yazın.
  • Nicel veya yüzdebirlik dereceleri kullanarak bölmelere değer atayın.
  • Değerlerin çift dağılımını bölmelere zorla.

Gruplama ve gruplandırma hakkında daha fazla bilgi

Verileri gruplama veya gruplandırma (bazen niceleme olarak da adlandırılır), sayısal verileri makine öğrenmesi için hazırlamada önemli bir araçtır. Aşağıdakiler gibi senaryolarda yararlıdır:

  • Sürekli sayılardan oluşan bir sütun, etkili bir şekilde modellenemeyecek kadar çok benzersiz değere sahiptir. Bu nedenle, daha küçük bir ayrık aralık kümesi oluşturmak için değerleri gruplara otomatik olarak veya el ile atarsınız.

  • Sayı sütununu belirli aralıkları temsil eden kategorik değerlerle değiştirmek istiyorsunuz.

    Örneğin, kullanıcı demografik bilgileri için 1-15, 16-22, 23-30 gibi özel aralıklar belirterek bir yaş sütunundaki değerleri gruplandırmak isteyebilirsiniz.

  • Bir veri kümesinin, tümü beklenen aralığın dışında olan birkaç aşırı değeri vardır ve bu değerlerin eğitilen model üzerinde büyük bir etkisi vardır. Modeldeki yanlılığı azaltmak için quantiles yöntemini kullanarak verileri tekdüzen bir dağılıma dönüştürebilirsiniz.

    Bu yöntemle, Verileri Bölmeler Halinde Gruplandır bileşeni ideal bölme konumlarını ve bölme genişliklerini belirler ve her bölmeye yaklaşık olarak aynı sayıda örneğin düşmesini sağlar. Ardından, seçtiğiniz normalleştirme yöntemine bağlı olarak, bölmelerdeki değerler yüzdebirlik dilimlere dönüştürülür veya bir bölme numarasına eşlenir.

Gruplama örnekleri

Aşağıdaki diyagramda quantiles yöntemiyle gruplandırmadan önce ve sonra sayısal değerlerin dağılımı gösterilmektedir. Soldaki ham verilerle karşılaştırıldığında verilerin birleştirilmiş ve birim normal ölçeğine dönüştürüldüğüne dikkat edin.

Sonuç görselleştirme

Verileri gruplandırmanın birçok yolu olduğundan, tümü özelleştirilebilir olduğundan, farklı yöntemler ve değerlerle denemeler yapmanız önerilir.

Grup Verilerini Bölmeler Halinde Yapılandırma

  1. Verileri Bölmelerde Gruplandır bileşenini tasarımcıdaki işlem hattınıza ekleyin. Bu bileşeni Veri Dönüştürme kategorisinde bulabilirsiniz.

  2. Sayısal verileri olan veri kümesini bölmeye bağlayın. Niceleme yalnızca sayısal veri içeren sütunlara uygulanabilir.

    Veri kümesi sayısal olmayan sütunlar içeriyorsa, çalışmak üzere bir sütun alt kümesi seçmek için Veri Kümesindeki Sütunları Seç bileşenini kullanın.

  3. Gruplama modunu belirtin. Gruplama modu diğer parametreleri belirler, bu nedenle önce Gruplama modu seçeneğini belirlediğinizden emin olun. Aşağıdaki gruplama türleri desteklenir:

    • Niceller: Nicel yöntemi, yüzdebirlik derecelerine göre bölmelere değer atar. Bu yöntem eşit yükseklikli gruplama olarak da bilinir.

    • Eşit Genişlik: Bu seçenekle, toplam bölme sayısını belirtmeniz gerekir. Veri sütunundaki değerler, her bölmenin başlangıç ve bitiş değerleri arasında aynı aralıkta olması için bölmelere yerleştirilir. Sonuç olarak, veriler belirli bir nokta etrafında yığılırsa bazı bölmeler daha fazla değere sahip olabilir.

    • Özel Kenarlar: Her bölmeyi başlatan değerleri belirtebilirsiniz. Kenar değeri her zaman bölmenin alt sınırıdır.

      Örneğin, değerleri iki bölmede gruplandırmak istediğinizi varsayalım. Birinin değerleri 0'dan büyük, birinin değeri 0'dan küçük veya buna eşit olacaktır. Bu durumda, bölme kenarları için virgülle ayrılmış bölme kenarları listesine0 girersiniz. Bileşenin çıkışı 1 ve 2 olur ve her satır değeri için bin dizinini gösterir. Virgülle ayrılmış değer listesinin 1, 3, 5, 7 gibi artan bir sırada olması gerektiğini unutmayın.

    Not

    Entropi MDL modu Studio'da (klasik) tanımlanır ve henüz Designer'da desteklemek için yararlanabileceğiniz ilgili bir açık kaynak paketi yoktur.

  4. Quantiles ve Equal Width gruplama modlarını kullanıyorsanız, kaç bölme veya nicelik oluşturmak istediğinizi belirtmek için Bölme sayısı seçeneğini kullanın.

  5. Bölme sütunları için, bölmek istediğiniz değerleri içeren sütunları seçmek için sütun seçiciyi kullanın. Sütunlar sayısal bir veri türü olmalıdır.

    Aynı gruplama kuralı, seçtiğiniz tüm geçerli sütunlara uygulanır. Farklı bir yöntem kullanarak bazı sütunları bölmeniz gerekiyorsa, her sütun kümesi için Verileri Bölmeler Halinde Gruplandır bileşeninin ayrı bir örneğini kullanın.

    Uyarı

    İzin verilmeyen bir sütun seçerseniz çalışma zamanı hatası oluşturulur. Bileşen, izin verilmeyen türde bir sütun bulur bulmaz bir hata döndürür. Hata alırsanız tüm seçili sütunları gözden geçirin. Hata tüm geçersiz sütunları listelemez.

  6. Çıkış modu için, nicelenmiş değerlerin çıkışını nasıl yapmak istediğinizi belirtin:

    • Ekleme: Binned değerleriyle yeni bir sütun oluşturur ve bunu giriş tablosuna ekler.

    • Inplace: Özgün değerleri veri kümesindeki yeni değerlerle değiştirir.

    • ResultOnly: Yalnızca sonuç sütunlarını döndürür.

  7. Quantiles gruplama modunu seçerseniz, nicellere göre sıralamadan önce değerlerin nasıl normalleştirileceğini belirlemek için Quantile normalleştirme seçeneğini kullanın. Değerleri normalleştirmenin değerleri dönüştürdüğünü ancak son bölme sayısını etkilemediğini unutmayın.

    Aşağıdaki normalleştirme türleri desteklenir:

    • Yüzde: Değerler [0,100] aralığında normalleştirilir.

    • PQuantile: Değerler [0,1] aralığında normalleştirilir.

    • QuantileIndex: Değerler [1,bölme sayısı] aralığında normalleştirilir.

  8. Özel Kenarlar seçeneğini belirlerseniz, Virgülle ayrılmış bölme kenarları metin kutusuna bölme kenarları olarak kullanılacak virgülle ayrılmış bir sayı listesi girin.

    Değerler, bölmeleri bölen noktayı işaretler. Örneğin, bir bölme kenar değeri girerseniz iki bölme oluşturulur. İki bölme kenar değeri girerseniz üç bölme oluşturulur.

    Değerler, bölmelerin oluşturulduğu düzende, en düşükten en yükseğe sıralanmalıdır.

  9. Nicelenmiş sütunların kategorik değişkenler olarak işlenmesi gerektiğini belirtmek için Sütunları kategorik olarak etiketle seçeneğini belirleyin.

  10. İşlem hattını gönderin.

Sonuçlar

Verileri Bölmeler Halinde Gruplandır bileşeni, her öğenin belirtilen moda göre gruplandığı bir veri kümesi döndürür.

Ayrıca bir gruplama dönüşümü döndürür. Bu işlev, aynı gruplama modu ve parametreleri kullanılarak yeni veri örneklerini bölmek için Dönüştürme Uygula bileşenine geçirilebilir.

İpucu

Eğitim verilerinizde gruplama kullanıyorsanız, test ve tahmin için kullandığınız verilerde aynı gruplama yöntemini kullanmanız gerekir. Aynı bölme konumlarını ve bölme genişliklerini de kullanmanız gerekir.

Verilerin her zaman aynı gruplama yöntemi kullanılarak dönüştürülmesini sağlamak için yararlı veri dönüşümlerini kaydetmenizi öneririz. Ardından DönüştürmeYi Uygula bileşenini kullanarak bunları diğer veri kümelerine uygulayın.

Sonraki adımlar

Bkz. Azure Machine Learning'de kullanılabilen bileşenler kümesi .