Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.
Bir veri kümesinden olası yinelenenleri kaldırmak için bu bileşeni kullanın.
Örneğin, verilerinizin aşağıdaki gibi göründüğünü ve hastalar için birden çok kaydı temsil ettiği varsayılır.
PatientID | Baş harfler | Cinsiyet | Yaş | Kabul |
---|---|---|---|---|
1 | F.M. | M | 53 | Oca |
2 | F.A.M. | M | 53 | Oca |
3 | F.A.M. | M | yirmi dört | Oca |
3 | F.M. | M | yirmi dört | Şub |
4 | F.M. | M | 23 | Şub |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 | |
6 | F.A.M. | M | Nan | |
7 | F.A.M. | M | Nan |
Bu örnekte yinelenen veri olabilecek birden çok sütun olduğu açıktır. Bunların gerçekten yinelenen olup olmadığı, verilerle ilgili bilginize bağlıdır.
Örneğin, birçok hastanın aynı ada sahip olduğunu biliyor olabilirsiniz. Herhangi bir ad sütunu kullanarak yinelenenleri ortadan kaldırmazsınız, yalnızca kimlik sütununu kullanabilirsiniz. Bu şekilde, hastaların aynı ada sahip olup olmadığına bakılmaksızın yalnızca yinelenen kimlik değerlerine sahip satırlar filtrelenir.
Alternatif olarak, kimlik alanında yinelenenlere izin verebilir ve ad, soyadı, yaş ve cinsiyet gibi benzersiz kayıtları bulmak için başka bir dosya bileşimi kullanabilirsiniz.
Bir satırın yinelenip yinelenmediğine ilişkin ölçütleri ayarlamak için, anahtar olarak kullanılacak tek bir sütun veya sütun kümesi belirtirsiniz. İki satır, yalnızca tüm anahtar sütunlarındaki değerler eşit olduğunda yinelenen olarak kabul edilir. Herhangi bir satırda anahtarlar için eksik değer varsa, bunlar yinelenen satırlar olarak kabul edilmez. Örneğin, Gender ve Age yukarıdaki tabloda Anahtarlar olarak ayarlanmışsa, 6. ve 7. satırlar Yaş'ta eksik değere sahip oldukları sürece yinelenen satırlar değildir.
Bileşeni çalıştırdığınızda bir aday veri kümesi oluşturur ve belirttiğiniz sütun kümesinde yinelemesi olmayan bir satır kümesi döndürür.
Önemli
Kaynak veri kümesi değiştirilmez; bu bileşen, belirttiğiniz ölçütlere göre yinelenenleri dışlamak için filtrelenmiş yeni bir veri kümesi oluşturur.
Yinelenen Satırları Kaldır'ı kullanma
Bileşeni işlem hattınıza ekleyin. Yinelenen Satırları Kaldır bileşenini Veri Dönüştürme, Düzenleme altında bulabilirsiniz.
Yinelenen satırları denetlemek istediğiniz veri kümesini bağlayın.
Özellikler bölmesindeki Anahtar sütun seçimi filtre ifadesi altında Sütun seçiciyi başlat'a tıklayarak yinelenenleri tanımlamada kullanılacak sütunları seçin.
Bu bağlamda Anahtar, benzersiz bir tanımlayıcı anlamına gelmez. Sütun Seçici'yi kullanarak seçtiğiniz tüm sütunlar anahtar sütunlar olarak atanır. Seçilmemiş tüm sütunlar anahtar olmayan sütunlar olarak kabul edilir. Anahtar olarak seçtiğiniz sütunların birleşimi, kayıtların benzersizliğini belirler. (Bunu birden çok eşitlik birleşimi kullanan bir SQL deyimi olarak düşünün.)
Örnekler:
- "Kimliklerin benzersiz olduğundan emin olmak istiyorum": Yalnızca Kimlik sütununu seçin.
- "Ad, soyadı ve kimlik birleşiminin benzersiz olduğundan emin olmak istiyorum": Üç sütunun tümünü seçin.
Yinelenenler bulunduğunda döndürülecek satırı belirtmek için İlk yinelenen satırı koru onay kutusunu kullanın:
- Seçilirse, ilk satır döndürülür ve diğerleri atılır.
- Bu seçeneğin işaretini kaldırırsanız, sonuçlarda son yinelenen satır tutulur ve diğerleri atılır.
İşlem hattını gönderin.
Sonuçları gözden geçirmek için bileşene sağ tıklayın ve Görselleştir'i seçin.
İpucu
Sonuçları anlamak zorsa veya bazı sütunları dikkate almaktan dışlamak istiyorsanız, Veri Kümesindeki Sütunları Seç bileşenini kullanarak sütunları kaldırabilirsiniz.
Sonraki adımlar
Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.