Veri dönüştürme-örnek ve bölünmüş

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, verileri bölümlemek veya örneklemek için kullanabileceğiniz Machine Learning Studio 'daki (klasik) modüller açıklanmaktadır.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Veri kümelerini bölmek ve örnekleme, makine öğreniminde önemli görevlerdir. Örneğin, bir modeli gizleme veri kümesinde değerlendirmenize yardımcı olmak için verileri eğitim ve test kümelerine bölmek yaygın bir uygulamadır. Örnekleme, büyük veri çağının yanı sıra eğitim verilerinize yönelik bir sınıf dağıtımı olduğundan emin olmak için de giderek daha fazla önem taşımaktadır. Örnekleme, gerekenden daha fazla veri işlediğinizden emin olmanıza de yardımcı olur.

veri kümelerini böldüğünüz veya örneklerinizin yolunu özelleştirmek için Machine Learning Studio (klasik) modüllerini kullanabilirsiniz:

  • Eğitim verilerini verilerdeki bir özniteliğe göre filtreleyin.
  • Sınıf değişkenini n sayıda grup arasında eşit olarak bölmek için, doğru örnekleme gerçekleştirin.
  • Kaynak verileri bir eğitime bölün ve özel bir oran kullanarak veri kümesini test edin.
  • Geçersiz değerleri filtrelemek için verilere normal ifadeler uygulayın.

Doğru işlemi seçme: bölme veya örnekleme

Machine Learning Studio (klasik), görevleri kapsülleyen iki modül sağlar. Modüller buna benzer ancak farklı kullanımlar vardır ve tamamlayıcı işlevler sağlar. Doğru miktarı ve doğru veri karışımını almak için her iki modülü de bir deneyle kullanacaksınız.

Ardından, her modülün yaygın olarak hangi görevleri için kullanıldığını görerek, bölünmüş veri modülünü ve bölüm ve örnek modülünü karşılaştırıyoruz.

Bölünmüş veri modülünün kullanımları

  • Verileri iki gruba bölün. Bölünmüş veri modülünü kullanın. Modül, verilerin tam olarak iki bölmelerini üretir. Verilerin bölüneceği koşulu ve her bir alt kümeye yerleştirilecek verilerin oranını belirtebilirsiniz. Bölünmüş veriler , koşulları karşılamayan verilerin alt kümesini her zaman kaydeder.
  • Etiket değerlerini veri kümelerine eşit olarak ayır. Belirtilen bir sütunda stratify seçeneği her iki modül tarafından desteklenir. Ancak, iki veri kümesi oluşturmak isterseniz ve genellikle etiket sütunuyla ilgileniyorsanız, bölünmüş veri modülü hızlı bir çözümdür.

Bölünmüş veri modülünü kullanma örneği

Bir CSV dosyasından çok büyük bir veri kümesini içeri aktardığınızı varsayalım. Veri kümesi, müşteri demografgrafiklerini içerir. Farklı ülkelerde müşteriler için farklı modeller oluşturmak istiyorsunuz, bu nedenle verileri sütunun değerini Country-Region kullanarak bölmeye karar verirsiniz. Bu görevi gerçekleştirmek için gerçekleştirmeniz gereken adımlar şunlardır:

  1. Bölünmüş veri modülünü ekleyin ve ardından alanda bir ifade Country-Region belirtin. Verilerin geri kalanı ikincil çıktıda kullanılabilir.
  2. Bölünmüş veri modülünün başka bir örneğini ekleyin.
  3. 1 ve 2. adımları tekrarlayın. Her yineleme için ifadede farklı bir ülke belirtin.

Bölünmüş veri modülü, sayısal veriler için hem Normal ifadelerihem de metin verileri için göreli ifadeleridestekler.

Bölünmüş veri modülü Ayrıca, özelleştirilmiş veri kümelerini bölmek için kullanabileceğiniz gelişmiş işlevler de sağlar. Öneri modelleri oluşturmak ve tahmin oluşturmak için işlevselliğini kullanın.

Bölüm ve örnek modülün kullanımları

  • Örnekleme. Her zaman bölüm ve örnek modülünü kullanın. Modül, farklı örneklemeye yönelik çeşitli seçenekler dahil olmak üzere birden çok özelleştirilebilir örnekleme yöntemi sağlar.
  • Birden çok gruba servis talebi atama. Bölüm ve örnek modüldeki katlama veya katlama seçeneklerini belirleyin .
  • Yalnızca verilerin bir alt kümesini döndürür. Bölüm ve örnek modülünü kullanın. Modül, birincil çıktıda belirtilen alt kümeyi sağlar. Kalan veriler ikincil bir çıkışta kullanılabilir.
  • Bir veri kümesinin yalnızca ilk 2.000 satırını alır. Bölüm ve örnek modülünü kullanın. Baş seçeneğini belirleyin. Bu, özellikle yeni bir deneme testi yaparken ve bir iş akışının kısa denemelerinden birini çalıştırmak istediğinizde yararlıdır.

Bölüm ve örnek modülün kullanımı örneği

Bölüm ve örnek modül, yalnızca iki değil, verilerin birden çok bölümünü oluşturabilir. Aynı zamanda, çeşitli örnekleme işlemleri gerçekleştirebilir.

Örneğin, hedef özniteliği dağıtımının kaynak verilerdeki ile aynı olduğundan emin olmak için verilerinizin yalnızca yüzde 10 ' u almanız gerektiğini varsayalım. Bu görevi gerçekleştirmek için gerçekleştirmeniz gereken adımlar şunlardır:

  1. Bölüm ve örnek modülünü ekleyin.
  2. Örnekleme modunu seçin ve ardından %10belirtin.
  3. Bağlı örnekleme seçeneğini belirleyin ve ardından hedef özniteliğini içeren sütunu seçin.

Tüm verileri saklamanız gerekmiyorsa, bölüm ve örnek modülünü kullanın. Kalan veriler hala çalışma alanında bulunuyor, ancak deneme kapsamında daha fazla işlenmek zorunda değildir.

Modül listesi

Bu kategori aşağıdaki modülleri içerir:

  • Bölüm ve örnek: örnekleme temel alınarak bir veri kümesinin birden çok bölümünü oluşturur.
  • Verileri bölme: bir veri kümesinin satırlarını iki ayrı küme halinde bölümler.

Ayrıca bkz.