Veri dönüştürme-örnek ve bölünmüş
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- makine öğrenimi projelerini ML Studio (klasik) konumundan Azure Machine Learning taşımaya yönelik bilgilerebakın.
- Azure Machine Learninghakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
bu makalede, verileri bölümlemek veya örneklemek için kullanabileceğiniz Machine Learning Studio 'daki (klasik) modüller açıklanmaktadır.
Not
uygulama hedefi: yalnızca Machine Learning Studio (klasik)
benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.
Veri kümelerini bölmek ve örnekleme, makine öğreniminde önemli görevlerdir. Örneğin, bir modeli gizleme veri kümesinde değerlendirmenize yardımcı olmak için verileri eğitim ve test kümelerine bölmek yaygın bir uygulamadır. Örnekleme, büyük veri çağının yanı sıra eğitim verilerinize yönelik bir sınıf dağıtımı olduğundan emin olmak için de giderek daha fazla önem taşımaktadır. Örnekleme, gerekenden daha fazla veri işlediğinizden emin olmanıza de yardımcı olur.
veri kümelerini böldüğünüz veya örneklerinizin yolunu özelleştirmek için Machine Learning Studio (klasik) modüllerini kullanabilirsiniz:
- Eğitim verilerini verilerdeki bir özniteliğe göre filtreleyin.
- Sınıf değişkenini n sayıda grup arasında eşit olarak bölmek için, doğru örnekleme gerçekleştirin.
- Kaynak verileri bir eğitime bölün ve özel bir oran kullanarak veri kümesini test edin.
- Geçersiz değerleri filtrelemek için verilere normal ifadeler uygulayın.
Doğru işlemi seçme: bölme veya örnekleme
Machine Learning Studio (klasik), görevleri kapsülleyen iki modül sağlar. Modüller buna benzer ancak farklı kullanımlar vardır ve tamamlayıcı işlevler sağlar. Doğru miktarı ve doğru veri karışımını almak için her iki modülü de bir deneyle kullanacaksınız.
Ardından, her modülün yaygın olarak hangi görevleri için kullanıldığını görerek, bölünmüş veri modülünü ve bölüm ve örnek modülünü karşılaştırıyoruz.
Bölünmüş veri modülünün kullanımları
- Verileri iki gruba bölün. Bölünmüş veri modülünü kullanın. Modül, verilerin tam olarak iki bölmelerini üretir. Verilerin bölüneceği koşulu ve her bir alt kümeye yerleştirilecek verilerin oranını belirtebilirsiniz. Bölünmüş veriler , koşulları karşılamayan verilerin alt kümesini her zaman kaydeder.
- Etiket değerlerini veri kümelerine eşit olarak ayır. Belirtilen bir sütunda stratify seçeneği her iki modül tarafından desteklenir. Ancak, iki veri kümesi oluşturmak isterseniz ve genellikle etiket sütunuyla ilgileniyorsanız, bölünmüş veri modülü hızlı bir çözümdür.
Bölünmüş veri modülünü kullanma örneği
Bir CSV dosyasından çok büyük bir veri kümesini içeri aktardığınızı varsayalım. Veri kümesi, müşteri demografgrafiklerini içerir. Farklı ülkelerde müşteriler için farklı modeller oluşturmak istiyorsunuz, bu nedenle verileri sütunun değerini Country-Region
kullanarak bölmeye karar verirsiniz. Bu görevi gerçekleştirmek için gerçekleştirmeniz gereken adımlar şunlardır:
- Bölünmüş veri modülünü ekleyin ve ardından alanda bir ifade
Country-Region
belirtin. Verilerin geri kalanı ikincil çıktıda kullanılabilir. - Bölünmüş veri modülünün başka bir örneğini ekleyin.
- 1 ve 2. adımları tekrarlayın. Her yineleme için ifadede farklı bir ülke belirtin.
Bölünmüş veri modülü, sayısal veriler için hem Normal ifadelerihem de metin verileri için göreli ifadeleridestekler.
Bölünmüş veri modülü Ayrıca, özelleştirilmiş veri kümelerini bölmek için kullanabileceğiniz gelişmiş işlevler de sağlar. Öneri modelleri oluşturmak ve tahmin oluşturmak için işlevselliğini kullanın.
Bölüm ve örnek modülün kullanımları
- Örnekleme. Her zaman bölüm ve örnek modülünü kullanın. Modül, farklı örneklemeye yönelik çeşitli seçenekler dahil olmak üzere birden çok özelleştirilebilir örnekleme yöntemi sağlar.
- Birden çok gruba servis talebi atama. Bölüm ve örnek modüldeki katlama veya katlama seçeneklerini belirleyin .
- Yalnızca verilerin bir alt kümesini döndürür. Bölüm ve örnek modülünü kullanın. Modül, birincil çıktıda belirtilen alt kümeyi sağlar. Kalan veriler ikincil bir çıkışta kullanılabilir.
- Bir veri kümesinin yalnızca ilk 2.000 satırını alır. Bölüm ve örnek modülünü kullanın. Baş seçeneğini belirleyin. Bu, özellikle yeni bir deneme testi yaparken ve bir iş akışının kısa denemelerinden birini çalıştırmak istediğinizde yararlıdır.
Bölüm ve örnek modülün kullanımı örneği
Bölüm ve örnek modül, yalnızca iki değil, verilerin birden çok bölümünü oluşturabilir. Aynı zamanda, çeşitli örnekleme işlemleri gerçekleştirebilir.
Örneğin, hedef özniteliği dağıtımının kaynak verilerdeki ile aynı olduğundan emin olmak için verilerinizin yalnızca yüzde 10 ' u almanız gerektiğini varsayalım. Bu görevi gerçekleştirmek için gerçekleştirmeniz gereken adımlar şunlardır:
- Bölüm ve örnek modülünü ekleyin.
- Örnekleme modunu seçin ve ardından %10belirtin.
- Bağlı örnekleme seçeneğini belirleyin ve ardından hedef özniteliğini içeren sütunu seçin.
Tüm verileri saklamanız gerekmiyorsa, bölüm ve örnek modülünü kullanın. Kalan veriler hala çalışma alanında bulunuyor, ancak deneme kapsamında daha fazla işlenmek zorunda değildir.
İlişkili görevler
- Bir örnekteki nadir durum sayısını artırın veya bir hedef değer için durumları yeniden dengeleyin: Smote modülünü kullanın.
- Veri alanını en iyi şekilde temsil eden özelliklerin birleşimini bularak Boyut azaltma işlemi gerçekleştirin: sorumlu bileşen analizi modülünü kullanın.
- özelliklerin ve sayımların analizini temel alan kompakt özellikler oluştur: counts modülü ile Learning kullanın.
- Yalnızca belirtilen sütunları kullanarak bir görünüm veya projeksiyon oluşturun; bir veri kümesindeki sütunları kaldırın veya gizleyin: veri kümesinde sütunları seçme ve SQL dönüştürme modülleri uygulama ' yı kullanın.
- daha karmaşık veri filtreleri, gruplandırmalar veya dönüşümler uygulayın: R betiğini yürüt ve SQL dönüştürme modüllerini uygula .
Modül listesi
Bu kategori aşağıdaki modülleri içerir:
- Bölüm ve örnek: örnekleme temel alınarak bir veri kümesinin birden çok bölümünü oluşturur.
- Verileri bölme: bir veri kümesinin satırlarını iki ayrı küme halinde bölümler.