Verileri Böl bileşeni

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Veri kümesini iki ayrı kümeye bölmek için Verileri Böl bileşenini kullanın.

Bu bileşen, verileri eğitim ve test kümelerine ayırmanız gerektiğinde kullanışlıdır. Verilerin bölünme şeklini de özelleştirebilirsiniz. Bazı seçenekler verilerin rastgele seçimini destekler. Diğerleri belirli bir veri türü veya model türü için uyarlanmıştır.

Bileşeni yapılandırma

İpucu

Bölme modunu seçmeden önce, ihtiyacınız olan bölme türünü belirlemek için tüm seçenekleri okuyun. Bölme modunu değiştirirseniz diğer tüm seçenekler sıfırlanabilir.

  1. Verileri Böl bileşenini tasarımcıdaki işlem hattınıza ekleyin. Bu bileşeni Veri Dönüştürme'nin altında , Örnek ve Böl kategorisinde bulabilirsiniz.

  2. Bölme modu: Sahip olduğunuz verilerin türüne ve nasıl bölmek istediğinize bağlı olarak aşağıdaki modlardan birini seçin. Her bölme modunun farklı seçenekleri vardır.

    • Satırları Böl: Verileri yalnızca iki bölüme bölmek istiyorsanız bu seçeneği kullanın. Her bölmeye eklenecek veri yüzdesini belirtebilirsiniz. Varsayılan olarak, veriler 50/50 bölünür.

      Ayrıca, her gruptaki satır seçimini rastgele yapabilir ve katmanlı örnekleme kullanabilirsiniz. Katmanlı örneklemede, değerlerin iki sonuç veri kümesi arasında eşit olarak kabul edilmesi için tek bir veri sütunu seçmeniz gerekir.

    • Normal İfade Bölme: Bir değer için tek bir sütunu test ederek veri kümenizi bölmek istediğinizde bu seçeneği belirleyin.

      Örneğin, yaklaşımı analiz ediyorsanız, metin alanında belirli bir ürün adının olup olmadığını kontrol edebilirsiniz. Daha sonra veri kümesini hedef ürün adına sahip satırlara ve hedef ürün adı olmayan satırlara bölebilirsiniz.

    • Göreli İfade Bölme: Bir sayı sütununa koşul uygulamak istediğinizde bu seçeneği kullanın. Sayı bir tarih/saat alanı, yaş veya dolar tutarları içeren bir sütun, hatta yüzdelik değer olabilir. Örneğin, veri kümenizi öğelerin maliyetine göre bölmek, kişileri yaş aralıklarına göre gruplandırmak veya verileri takvim tarihine göre ayırmak isteyebilirsiniz.

Satırları bölme

  1. Verileri Böl bileşenini tasarımcıda işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesini bağlayın.

  2. Bölme modu için Satırları Böl'e tıklayın.

  3. İlk çıkış veri kümesindeki satırların kesri: İlk (sol taraftaki) çıktıya kaç satır gideceğini belirlemek için bu seçeneği kullanın. Diğer tüm satırlar ikinci (sağ taraf) çıkışa gider.

    Oran, ilk çıkış veri kümesine gönderilen satırların yüzdesini temsil eder, bu nedenle 0 ile 1 arasında bir ondalık sayı girmeniz gerekir.

    Örneğin, değer olarak 0,75 girerseniz veri kümesi 75/25 bölünür. Bu bölmede, satırların yüzde 75'i ilk çıkış veri kümesine gönderilir. Kalan yüzde 25, ikinci çıkış veri kümesine gönderilir.

  4. İki gruba rastgele veri seçimi yapmak istiyorsanız Rastgele bölme seçeneğini belirleyin. Eğitim ve test veri kümeleri oluştururken tercih edilen seçenek budur.

  5. Rastgele Seed: Rastgele bölme false olarak ayarlanırsa bu parametre yoksayılır. Aksi takdirde, kullanılacak örneklerin sahte dizisini başlatmak için negatif olmayan bir tamsayı değeri girin. Bu varsayılan tohum, rastgele sayılar oluşturan tüm bileşenlerde kullanılır.

    Bir tohum belirtmek sonuçların yeniden üretilebilir olmasını sağlar. Bölme işleminin sonuçlarını yinelemeniz gerekiyorsa, rastgele sayı oluşturucu için aynı tohum numarasını belirtmeniz gerekir.

  6. Katmanlı bölme: İki çıkış veri kümesinin katman sütunundaki veya katmanlamaanahtarı sütunundaki değerlerin temsili bir örneğini içerdiğinden emin olmak için bu seçeneği True olarak ayarlayın.

    Katmanlı örnekleme ile veriler, her çıkış veri kümesinin her hedef değerin kabaca aynı yüzdesini alması için bölünür. Örneğin, eğitim ve test kümelerinizin sonuç veya başka bir sütun (cinsiyet gibi) açısından kabaca dengelenmiş olduğundan emin olmak isteyebilirsiniz.

  7. İşlem hattını gönderin.

Normal ifade seçme

  1. Verileri Böl bileşenini işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesine giriş olarak bağlayın.

  2. Bölme modu için Normal ifade bölme'yi seçin.

  3. Normal ifade kutusuna geçerli bir normal ifade girin.

    Normal ifade, normal ifadeler için Python söz dizimini izlemelidir.

  4. İşlem hattını gönderin.

    Sağladığınız normal ifadeye bağlı olarak, veri kümesi iki satır kümesine ayrılır: ifadeyle eşleşen değerlere sahip satırlar ve kalan tüm satırlar.

Aşağıdaki örneklerde , Normal ifade seçeneğini kullanarak bir veri kümesinin nasıl bölündüğü gösterilmektedir.

Tek bir tam sözcük

Bu örnek, ilk veri kümesine sütunundaki Textmetni Gryphon içeren tüm satırları yerleştirir. Diğer satırları Verileri Bölme'nin ikinci çıkışına yerleştirir.

    \"Text" Gryphon  

Dize

Bu örnek, belirtilen dizeyi veri kümesinin ikinci sütunundaki herhangi bir konumda arar. Konum burada 1 dizin değeriyle gösterilir. Eşleşme büyük/küçük harfe duyarlıdır.

(\1) ^[a-f]

İlk sonuç veri kümesi, dizin sütununun şu karakterlerden biriyle başladığı tüm satırları içerir: a, b, c, d, e, . f Diğer tüm satırlar ikinci çıkışa yönlendirilir.

Göreli ifade seçme

  1. Verileri Böl bileşenini işlem hattınıza ekleyin ve bölmek istediğiniz veri kümesine giriş olarak bağlayın.

  2. Bölme modu için Göreli İfade'yi seçin.

  3. İlişkisel ifade kutusuna, tek bir sütunda karşılaştırma işlemi gerçekleştiren bir ifade girin.

    Sayısal sütun için:

    • Sütun, tarih ve saat veri türleri de dahil olmak üzere herhangi bir sayısal veri türünde sayılar içerir.
    • İfade en fazla bir sütun adına başvurabilir.
    • AND işlemi için ve karakterini &kullanın. OR işlemi için kanal karakterini |kullanın.
    • Aşağıdaki işleçler desteklenir: <, >, <=, >=, ==, !=.
    • ve )kullanarak ( işlemleri gruplandıramazsınız.

    Dize sütunu için:

    • Aşağıdaki işleçler desteklenir: ==, !=.
  4. İşlem hattını gönderin.

    İfade, veri kümesini iki satır kümesine böler: koşulu karşılayan değerlere sahip satırlar ve kalan tüm satırlar.

Aşağıdaki örneklerde, Verileri Böl bileşenindeki Göreli İfade seçeneğini kullanarak bir veri kümesinin nasıl bölündüğü gösterilmektedir.

Takvim yılı

Yaygın bir senaryo, bir veri kümesini yıllara bölmektir. Aşağıdaki ifade, sütundaki Year değerlerin değerinden 2010büyük olduğu tüm satırları seçer.

\"Year" > 2010

Tarih ifadesi, veri sütununa dahil edilen tüm tarih bölümlerini hesaba eklemelidir. Veri sütunundaki tarihlerin biçimi tutarlı olmalıdır.

Örneğin, biçimini mmddyyyykullanan bir tarih sütununda ifade aşağıdakine benzer olmalıdır:

\"Date" > 1/1/2010

Sütun dizini

Aşağıdaki ifade, veri kümesinin ilk sütunundaki 30'a eşit veya 30'a eşit olmayan ancak 20'ye eşit olmayan tüm satırları seçmek için sütun dizinini nasıl kullanabileceğinizi gösterir.

(\0)<=30 & !=20

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın.