Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.
Veri kümesini iki ayrı kümeye bölmek için Verileri Böl bileşenini kullanın.
Bu bileşen, verileri eğitim ve test kümelerine ayırmanız gerektiğinde kullanışlıdır. Verilerin bölünme şeklini de özelleştirebilirsiniz. Bazı seçenekler verilerin rastgele seçimini destekler. Diğerleri belirli bir veri türü veya model türü için uyarlanmıştır.
Bileşeni yapılandırma
İpucu
Bölme modunu seçmeden önce, ihtiyacınız olan bölme türünü belirlemek için tüm seçenekleri okuyun. Bölme modunu değiştirirseniz diğer tüm seçenekler sıfırlanabilir.
Verileri Böl bileşenini tasarımcıda işlem hattınıza ekleyin. Bu bileşeni Veri Dönüştürme altında, Örnek ve Bölme kategorisinde bulabilirsiniz.
Bölme modu: Sahip olduğunuz verilerin türüne ve nasıl bölmek istediğinize bağlı olarak aşağıdaki modlardan birini seçin. Her bölme modunun farklı seçenekleri vardır.
Satırları Böl: Verileri yalnızca iki bölüme bölmek istiyorsanız bu seçeneği kullanın. Her bölmeye eklenecek veri yüzdesini belirtebilirsiniz. Varsayılan olarak, veriler 50/50 bölünür.
Ayrıca, her gruptaki satır seçimini rastgele oluşturabilir ve katmanlı örnekleme kullanabilirsiniz. Katmanlı örneklemede, değerlerin iki sonuç veri kümesi arasında eşit olarak kabul edilmesi için tek bir veri sütunu seçmeniz gerekir.
Normal İfade Bölme: Bir değer için tek bir sütunu test ederek veri kümenizi bölmek istediğinizde bu seçeneği belirleyin.
Örneğin, yaklaşımı analiz ediyorsanız, metin alanında belirli bir ürün adının olup olmadığını de kontrol edebilirsiniz. Daha sonra veri kümesini hedef ürün adıyla satırlara ve hedef ürün adı olmayan satırlara bölebilirsiniz.
Göreli İfade Bölme: Bir sayı sütununa koşul uygulamak istediğinizde bu seçeneği kullanın. Sayı bir tarih/saat alanı, yaş veya dolar tutarları içeren bir sütun, hatta yüzde olabilir. Örneğin, veri kümenizi öğelerin maliyetine göre bölmek, kişileri yaş aralıklarına göre gruplandırmak veya verileri takvim tarihine göre ayırmak isteyebilirsiniz.
Satırları bölme
Verileri Böl bileşenini tasarımcıdaki işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesini bağlayın.
Bölme modu için Satırları Böl'e tıklayın.
İlk çıkış veri kümesindeki satırların kesri: İlk (sol taraftaki) çıktıya kaç satır girileceğini belirlemek için bu seçeneği kullanın. Diğer tüm satırlar ikinci (sağ taraf) çıkışına gider.
Oran, ilk çıkış veri kümesine gönderilen satırların yüzdesini temsil eder, bu nedenle 0 ile 1 arasında bir ondalık sayı girmeniz gerekir.
Örneğin, değer olarak 0,75 girerseniz veri kümesi 75/25 bölünür. Bu bölmede, satırların yüzde 75'i ilk çıkış veri kümesine gönderilir. Kalan yüzde 25, ikinci çıkış veri kümesine gönderilir.
İki gruptaki veri seçimini rastgele seçmek istiyorsanız Rastgele bölme seçeneğini belirleyin. Eğitim ve test veri kümeleri oluştururken tercih edilen seçenek budur.
Rastgele Tohum: Rastgele bölme false olarak ayarlanırsa bu parametre yoksayılır. Aksi takdirde, kullanılacak örneklerin sahte dizisini başlatmak için negatif olmayan bir tamsayı değeri girin. Bu varsayılan tohum, rastgele sayılar oluşturan tüm bileşenlerde kullanılır.
Bir tohum belirtmek sonuçların yeniden üretilebilir olmasını sağlar. Bölme işleminin sonuçlarını yinelemeniz gerekiyorsa, rastgele sayı oluşturucu için aynı tohum numarasını belirtmeniz gerekir.
Katmanlı bölme: İki çıkış veri kümesinin katman sütunundaki veya katmanlama anahtarı sütunundakideğerlerin temsili bir örneğini içerdiğinden emin olmak için bu seçeneği True olarak ayarlayın.
Katmanlı örnekleme ile veriler, her çıkış veri kümesinin hedef değerlerin kabaca aynı yüzdesini alması için bölünür. Örneğin, eğitim ve test kümelerinizin sonuçla veya başka bir sütunla (cinsiyet gibi) ilgili olarak kabaca dengelenmiş olduğundan emin olmak isteyebilirsiniz.
İşlem hattını gönderin.
Normal ifade seçme
Verileri Böl bileşenini işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesine giriş olarak bağlayın.
Bölme modu için Normal ifade bölme'yi seçin.
Normal ifade kutusuna geçerli bir normal ifade girin.
Normal ifade, normal ifadeler için Python söz dizimini izlemelidir.
İşlem hattını gönderin.
Sağladığınız normal ifadeye bağlı olarak, veri kümesi iki satır kümesine ayrılır: ifadeyle eşleşen değerlere sahip satırlar ve kalan tüm satırlar.
Aşağıdaki örneklerde, Normal ifade seçeneğini kullanarak bir veri kümesinin nasıl bölündüğü gösterilmektedir.
Tek bir tam sözcük
Bu örnek, ilk veri kümesine sütunundaki Gryphonmetni Text içeren tüm satırları yerleştirir. Diğer satırları Verileri Bölme'nin ikinci çıkışına yerleştirir.
\"Text" Gryphon
Dize
Bu örnek, belirtilen dizeyi veri kümesinin ikinci sütunu içinde herhangi bir konumda arar. Konum burada 1 dizin değeriyle gösterilir. Eşleşme büyük/küçük harfe duyarlıdır.
(\1) ^[a-f]
İlk sonuç veri kümesi, dizin sütununun şu karakterlerden biriyle başladığı tüm satırları içerir: a, b, c, d, e, f. Diğer tüm satırlar ikinci çıkışa yönlendirilir.
Göreli ifade seçme
Verileri Böl bileşenini işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesine giriş olarak bağlayın.
Bölme modu için Göreli İfade'yi seçin.
İlişkisel ifade kutusuna, tek bir sütunda karşılaştırma işlemi gerçekleştiren bir ifade girin.
Sayısal sütun için:
- Sütun, tarih ve saat veri türleri de dahil olmak üzere herhangi bir sayısal veri türünün sayılarını içerir.
- İfade en fazla bir sütun adına başvurabilir.
- AND işlemi için ve karakterini
&kullanın. OR işlemi için boru karakterini|kullanın. - Aşağıdaki işleçler desteklenir:
<,>,<=,>=,==,!=. - ve
(kullanarak)işlemleri gruplandıramazsınız.
Dize sütunu için:
- Aşağıdaki işleçler desteklenir:
==,!=.
İşlem hattını gönderin.
İfade, veri kümesini iki satır kümesine böler: koşula uyan değerlere sahip satırlar ve kalan tüm satırlar.
Aşağıdaki örneklerde, Verileri Böl bileşenindeki Göreli İfade seçeneğini kullanarak veri kümesinin nasıl bölündüğü gösterilmektedir.
Takvim yılı
Yaygın bir senaryo, bir veri kümesini yıllara bölmektir. Aşağıdaki ifade, sütundaki Year değerlerin değerinden 2010büyük olduğu tüm satırları seçer.
\"Year" > 2010
Tarih ifadesi, veri sütununa dahil edilen tüm tarih bölümlerini hesaba eklemelidir. Veri sütunundaki tarihlerin biçimi tutarlı olmalıdır.
Örneğin, biçimini mmddyyyykullanan bir tarih sütununda ifade şu şekilde olmalıdır:
\"Date" > 1/1/2010
Sütun dizini
Aşağıdaki ifadede, veri kümesinin ilk sütununda 30'a eşit veya 30'a eşit ancak 20'ye eşit olmayan tüm satırları seçmek için sütun dizinini nasıl kullanabileceğiniz gösterilmektedir.
(\0)<=30 & !=20
Sonraki adımlar
Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.