Nilai Klip
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Mendeteksi outlier dan klip atau mengganti nilainya
Kategori: Transformasi / Skala Data dan Kurangi
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan modul Nilai Klip di Pembelajaran Mesin Studio (klasik), untuk mengidentifikasi dan mengganti nilai data secara opsional yang berada di atas atau di bawah ambang batas yang ditentukan. Ini berguna ketika Anda ingin menghapus outlier atau menggantinya dengan mean, constant, atau nilai pengganti lainnya.
Anda menyambungkan modul ke himpunan data yang memiliki angka yang ingin Anda klip, memilih kolom yang akan digunakan, lalu mengatur ambang atau rentang nilai, dan metode penggantian. Modul dapat menampilkan hanya hasil, atau nilai diubah yang ditambahkan ke himpunan data asli.
Cara mengonfigurasi Nilai Klip
Sebelum Anda memulai, identifikasi kolom yang ingin Anda klip, dan metode yang akan digunakan. Sebaiknya uji metode kliping apa pun pada himpunan data kecil terlebih dahulu.
Modul menerapkan kriteria dan metode penggantian yang sama untuk semua kolom yang Anda sertakan dalam pilihan. Oleh karena itu, pastikan untuk mengecualikan kolom yang tidak ingin Anda ubah.
Jika Anda perlu menerapkan metode kliping atau kriteria yang berbeda untuk beberapa kolom, Anda harus menggunakan instans baru Nilai Klip untuk setiap kumpulan kolom yang serupa.
Tambahkan modul Nilai Klip ke eksperimen Anda dan hubungkan ke himpunan data yang ingin Anda ubah. Anda dapat menemukan modul ini di bagian Transformasi Data, dalam kategori Skalakan dan Kurangi.
Di Daftar kolom, gunakan Pemilih Kolom untuk memilih kolom tempat Nilai Klip akan diterapkan.
Untuk Kumpulan ambang, pilih salah satu opsi berikut dari daftar drop-down. Opsi ini menentukan cara Anda menetapkan batas atas dan bawah untuk nilai yang dapat diterima vs. nilai yang harus diklip.
ClipPeaks: Saat Anda mengklip nilai menurut puncak, Anda hanya menentukan batas atas. Nilai yang lebih besar dari nilai batas tersebut diganti atau dihapus.
ClipSubpeaks: Saat Anda memotong nilai berdasarkan sub-puncak, Anda hanya menentukan batas bawah. Nilai yang kurang dari nilai batas tersebut diganti atau dihapus.
ClipPeaksAndSubpeaks: Saat Anda memotong nilai berdasarkan puncak dan sub-puncak, Anda dapat menentukan batas atas dan bawah. Nilai yang berada di luar rentang tersebut diganti atau dihapus. Nilai yang cocok dengan nilai batas tidak diubah.
Bergantung pada pilihan Anda di langkah sebelumnya, Anda dapat mengatur nilai ambang berikut:
- Ambang bawah: Ditampilkan hanya jika Anda memilih ClipSubPeaks
- Ambang atas: Ditampilkan hanya jika Anda memilih ClipPeaks
- Ambang: Ditampilkan hanya jika Anda memilih ClipPeaksAndSubPeaks
Untuk setiap jenis ambang, pilih Konstanta atau Persentil.
Jika Anda memilih Konstanta, ketik nilai maksimum atau minimum di kotak teks. Misalnya, asumsikan bahwa Anda mengetahui nilai 999 digunakan sebagai nilai tempat penampung. Anda dapat memilih Konstan untuk ambang batas atas, dan ketik 999 dalam nilai Konstan ambang batas atas.
Jika Anda memilih Persentil, Anda membatasi nilai kolom ke rentang persentil.
Misalnya, asumsikan Anda hanya ingin menyimpan nilai dalam rentang persentil 10-80, dan mengganti yang lainnya. Anda akan memilih Persentil, lalu ketik 10 untuk nilai Persentil ambang batas bawah, dan tipe 80 untuk nilai Persentil ambang batas atas.
Lihat bagian persentil untuk beberapa contoh cara menggunakan rentang persentil.
Tentukan nilai pengganti.
Angka yang persis sesuai dengan batas yang baru saja Anda tentukan dianggap berada dalam rentang nilai yang diizinkan, dan dengan demikian tidak diganti atau dihapus. Semua angka yang berada di luar rentang yang ditentukan diganti dengan nilai pengganti.
- Nilai pengganti untuk puncak: Menentukan nilai untuk menggantikan semua nilai kolom yang lebih besar dari ambang yang ditentukan.
- Nilai pengganti untuk subpeak: Menentukan nilai yang akan digunakan sebagai pengganti semua nilai kolom yang kurang dari ambang yang ditentukan.
- Jika Anda menggunakan opsi ClipPeaksAndSubpeaks, Anda dapat menentukan nilai pengganti terpisah untuk nilai terklip atas dan bawah.
Nilai penggantian berikut didukung:
Ambang: Mengganti nilai yang terklip dengan nilai ambang yang ditentukan.
Mean: Mengganti nilai yang terklip dengan nilai mean kolom. Mean dihitung sebelum nilai diklip.
Median: Mengganti nilai yang terklip dengan nilai median kolom. Median dihitung sebelum nilai diklip.
Tidak ada. Mengganti nilai yang terklip dengan nilai yang hilang (kosong).
Tambahkan kolom indikator: Pilih opsi ini jika Anda ingin membuat kolom baru yang memberi tahu Anda apakah operasi kliping yang ditentukan diterapkan pada data di baris itu atau tidak. Opsi ini sangat berguna saat Anda menguji satu set baru nilai kliping dan substitusi.
Timpa bendera: Tunjukkan bagaimana Anda ingin nilai baru dihasilkan. Secara default, Nilai Klip membuat kolom baru dengan nilai puncak terklip ke ambang yang diinginkan. Nilai baru menimpa kolom asli.
Untuk mempertahankan kolom asli dan menambahkan kolom baru dengan nilai terklip, batalkan pilihan opsi ini.
Jalankan eksperimen.
Klik kanan output modul Nilai Klip dan pilih Visualisasikan untuk meninjau nilai dan pastikan operasi kliping memenuhi harapan Anda.
Contoh
Untuk melihat bagaimana modul ini digunakan dalam eksperimen pembelajaran mesin, lihat Galeri AI Azure:
- Outlier Kebakaran Hutan: Contoh dari penggunaan bersama EdX dalam ilmu data ini menunjukkan metode kliping menggunakan dataset sampel Kebakaran Hutan.
Kliping menggunakan persentil
Untuk memahami cara kerja kliping menurut persentil, pertimbangkan himpunan data dengan 10 baris, yang masing-masing memiliki satu instans dengan nilai 1-10.
Jika Anda menggunakan persentil sebagai ambang atas, pada nilai untuk persentil ke-90, 90 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.
Jika Anda menggunakan persentil sebagai ambang bawah, pada nilai untuk persentil ke-10, 10 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.
Untuk Set ambang, pilih ClipPeaksAndSubPeaks.
Untuk Ambang atas, pilih Persentil, dan untuk Angka persentil, ketik 90.
Untuk Nilai pengganti atas, pilih Nilai Tidak Ada.
Untuk Ambang bawah, pilih Persentil, dan untuk Angka persentil, ketik 10.
Untuk Nilai pengganti yang lebih rendah, pilih Nilai Tidak Ada.
Batalkan pilihan Timpa bendera, dan pilih opsi, Tambahkan kolom indikator.
Sekarang coba percobaan yang sama menggunakan 60 sebagai ambang persentil atas dan 30 sebagai ambang persentil yang lebih rendah, dan gunakan nilai ambang batas sebagai nilai penggantian. Tabel berikut membandingkan kedua hasil ini:
Ganti dengan hilang; Ambang batas atas = 90; Ambang batas bawah = 10
Ganti dengan ambang batas; Persentil atas = 60; Persentil lebih rendah = 30
Data asli | Ganti dengan tidak ada | Ganti dengan ambang |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Catatan teknis
Anda dapat menggunakan Nilai Klip hanya pada kolom yang berisi angka atau nilai tanggal/waktu.
Jika Anda menyertakan kolom yang memiliki teks atau data kategoris, kolom akan dilewati.
Nilai yang hilang diabaikan ketika nilai rata-rata atau median dihitung untuk kolom.
Nilai Klip tidak mendukung data ordinal.
Nilai yang hilang tidak diubah saat disebarkan ke himpunan data output. Kolom yang menunjukkan nilai terpotong selalu berisi FALSE untuk nilai yang hilang.
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Himpunan data input |
Parameter modul
Nama | Rentang | Jenis | Default | Deskripsi |
---|---|---|---|---|
Menambahkan kolom indikator | BENAR/SALAH | Boolean | FALSE | Apakah akan menambahkan indikator untuk kliping nilai dilakukan |
Nilai konstan untuk ambang batas yang lebih rendah | apa pun | Mengambang | -1 | Nilai di bawah mana subpeaks akan dipotong |
Nilai konstan untuk ambang batas atas | apa pun | Mengambang | 1 | Nilai di atas puncak mana akan terpotong |
Nilai konstan ambang batas yang lebih rendah | apa pun | Mengambang | -1 | Nilai di bawah mana subpeak dipotong |
Nilai konstan ambang batas atas | >=1 | Mengambang | 1 | Nilai di atas puncak dipotong |
Daftar kolom | Pilihan Kolom | Daftar kolom yang akan di-klip | ||
Nilai pengganti yang lebih rendah | Ambang Batas Rerata Median Tidak ada |
SubstituteValues | Ambang Batas | Nilai yang digunakan untuk menjepit subpeak |
Ambang batas yang lebih rendah | Terus-menerus Persentil |
Mode Ambang Batas | Terus-menerus | Nilai di bawah mana subpeaks akan dipotong mode |
Menimpa bendera | BENAR/SALAH | Boolean | BENAR | Apakah kolom data terpotong harus menimpa kolom data input |
Angka persentil untuk ambang batas yang lebih rendah | [1;99] | Bilangan bulat | 1 | Angka persentil di bawah mana subpeak akan dipotong |
Angka persentil untuk ambang batas atas | [1;99] | Bilangan bulat | 99 | Angka persentil di atas puncak akan dipotong |
Jumlah persentil ambang batas yang lebih rendah | [1;99] | Bilangan bulat | 1 | Angka persentil di bawah mana subpeak dipotong |
Jumlah persentil ambang batas atas | [1;99] | Bilangan bulat | 99 | Angka persentil di atas puncak terpotong |
Set ambang batas | KlipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Set Ambang Batas | KlipPeaks | Menentukan jenis ambang batas yang akan digunakan |
Nilai pengganti untuk puncak | Ambang Batas Rerata Median Tidak ada |
SubstituteValues | Ambang Batas | Nilai yang digunakan selama puncak kliping |
Nilai pengganti untuk subpeak | Ambang Batas Rerata Median Tidak ada |
SubstituteValues | Ambang Batas | Nilai yang digunakan selama subpeak kliping |
Ambang Batas | Terus-menerus Persentil |
Mode Ambang Batas | Terus-menerus | Nilai di atas dan di bawah mana puncak akan dipotong mode |
Nilai pengganti atas | Ambang Batas Rerata Median Tidak ada |
Ambang Batas | Ambang Batas | Nilai yang digunakan untuk puncak kliping |
Ambang batas atas | Terus-menerus Persentil |
Mode Ambang Batas | Terus-menerus | Nilai di atas mana puncak akan dipotong mode |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Himpunan data dengan kolom terpotong |
Pengecualian
Pengecualian | Deskripsi |
---|---|
Kesalahan 0011 | Pengecualian terjadi jika argumen kumpulan kolom yang dilewatkan tidak berlaku untuk kolom himpunan data mana pun. |
Kesalahan 0017 | Pengecualian terjadi jika satu atau beberapa kolom tertentu memiliki jenis yang tidak didukung oleh modul saat ini. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.