Bagikan melalui


Nilai Klip

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mendeteksi outlier dan klip atau mengganti nilainya

Kategori: Transformasi / Skala Data dan Kurangi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Nilai Klip di Pembelajaran Mesin Studio (klasik), untuk mengidentifikasi dan mengganti nilai data secara opsional yang berada di atas atau di bawah ambang batas yang ditentukan. Ini berguna ketika Anda ingin menghapus outlier atau menggantinya dengan mean, constant, atau nilai pengganti lainnya.

Anda menyambungkan modul ke himpunan data yang memiliki angka yang ingin Anda klip, memilih kolom yang akan digunakan, lalu mengatur ambang atau rentang nilai, dan metode penggantian. Modul dapat menampilkan hanya hasil, atau nilai diubah yang ditambahkan ke himpunan data asli.

Cara mengonfigurasi Nilai Klip

Sebelum Anda memulai, identifikasi kolom yang ingin Anda klip, dan metode yang akan digunakan. Sebaiknya uji metode kliping apa pun pada himpunan data kecil terlebih dahulu.

Modul menerapkan kriteria dan metode penggantian yang sama untuk semua kolom yang Anda sertakan dalam pilihan. Oleh karena itu, pastikan untuk mengecualikan kolom yang tidak ingin Anda ubah.

Jika Anda perlu menerapkan metode kliping atau kriteria yang berbeda untuk beberapa kolom, Anda harus menggunakan instans baru Nilai Klip untuk setiap kumpulan kolom yang serupa.

  1. Tambahkan modul Nilai Klip ke eksperimen Anda dan hubungkan ke himpunan data yang ingin Anda ubah. Anda dapat menemukan modul ini di bagian Transformasi Data, dalam kategori Skalakan dan Kurangi.

  2. Di Daftar kolom, gunakan Pemilih Kolom untuk memilih kolom tempat Nilai Klip akan diterapkan.

  3. Untuk Kumpulan ambang, pilih salah satu opsi berikut dari daftar drop-down. Opsi ini menentukan cara Anda menetapkan batas atas dan bawah untuk nilai yang dapat diterima vs. nilai yang harus diklip.

    • ClipPeaks: Saat Anda mengklip nilai menurut puncak, Anda hanya menentukan batas atas. Nilai yang lebih besar dari nilai batas tersebut diganti atau dihapus.

    • ClipSubpeaks: Saat Anda memotong nilai berdasarkan sub-puncak, Anda hanya menentukan batas bawah. Nilai yang kurang dari nilai batas tersebut diganti atau dihapus.

    • ClipPeaksAndSubpeaks: Saat Anda memotong nilai berdasarkan puncak dan sub-puncak, Anda dapat menentukan batas atas dan bawah. Nilai yang berada di luar rentang tersebut diganti atau dihapus. Nilai yang cocok dengan nilai batas tidak diubah.

  4. Bergantung pada pilihan Anda di langkah sebelumnya, Anda dapat mengatur nilai ambang berikut:

    • Ambang bawah: Ditampilkan hanya jika Anda memilih ClipSubPeaks
    • Ambang atas: Ditampilkan hanya jika Anda memilih ClipPeaks
    • Ambang: Ditampilkan hanya jika Anda memilih ClipPeaksAndSubPeaks

    Untuk setiap jenis ambang, pilih Konstanta atau Persentil.

  5. Jika Anda memilih Konstanta, ketik nilai maksimum atau minimum di kotak teks. Misalnya, asumsikan bahwa Anda mengetahui nilai 999 digunakan sebagai nilai tempat penampung. Anda dapat memilih Konstan untuk ambang batas atas, dan ketik 999 dalam nilai Konstan ambang batas atas.

  6. Jika Anda memilih Persentil, Anda membatasi nilai kolom ke rentang persentil.

    Misalnya, asumsikan Anda hanya ingin menyimpan nilai dalam rentang persentil 10-80, dan mengganti yang lainnya. Anda akan memilih Persentil, lalu ketik 10 untuk nilai Persentil ambang batas bawah, dan tipe 80 untuk nilai Persentil ambang batas atas.

    Lihat bagian persentil untuk beberapa contoh cara menggunakan rentang persentil.

  7. Tentukan nilai pengganti.

    Angka yang persis sesuai dengan batas yang baru saja Anda tentukan dianggap berada dalam rentang nilai yang diizinkan, dan dengan demikian tidak diganti atau dihapus. Semua angka yang berada di luar rentang yang ditentukan diganti dengan nilai pengganti.

    • Nilai pengganti untuk puncak: Menentukan nilai untuk menggantikan semua nilai kolom yang lebih besar dari ambang yang ditentukan.
    • Nilai pengganti untuk subpeak: Menentukan nilai yang akan digunakan sebagai pengganti semua nilai kolom yang kurang dari ambang yang ditentukan.
    • Jika Anda menggunakan opsi ClipPeaksAndSubpeaks, Anda dapat menentukan nilai pengganti terpisah untuk nilai terklip atas dan bawah.

    Nilai penggantian berikut didukung:

    • Ambang: Mengganti nilai yang terklip dengan nilai ambang yang ditentukan.

    • Mean: Mengganti nilai yang terklip dengan nilai mean kolom. Mean dihitung sebelum nilai diklip.

    • Median: Mengganti nilai yang terklip dengan nilai median kolom. Median dihitung sebelum nilai diklip.

    • Tidak ada. Mengganti nilai yang terklip dengan nilai yang hilang (kosong).

  8. Tambahkan kolom indikator: Pilih opsi ini jika Anda ingin membuat kolom baru yang memberi tahu Anda apakah operasi kliping yang ditentukan diterapkan pada data di baris itu atau tidak. Opsi ini sangat berguna saat Anda menguji satu set baru nilai kliping dan substitusi.

  9. Timpa bendera: Tunjukkan bagaimana Anda ingin nilai baru dihasilkan. Secara default, Nilai Klip membuat kolom baru dengan nilai puncak terklip ke ambang yang diinginkan. Nilai baru menimpa kolom asli.

    Untuk mempertahankan kolom asli dan menambahkan kolom baru dengan nilai terklip, batalkan pilihan opsi ini.

  10. Jalankan eksperimen.

    Klik kanan output modul Nilai Klip dan pilih Visualisasikan untuk meninjau nilai dan pastikan operasi kliping memenuhi harapan Anda.

Contoh

Untuk melihat bagaimana modul ini digunakan dalam eksperimen pembelajaran mesin, lihat Galeri AI Azure:

  • Outlier Kebakaran Hutan: Contoh dari penggunaan bersama EdX dalam ilmu data ini menunjukkan metode kliping menggunakan dataset sampel Kebakaran Hutan.

Kliping menggunakan persentil

Untuk memahami cara kerja kliping menurut persentil, pertimbangkan himpunan data dengan 10 baris, yang masing-masing memiliki satu instans dengan nilai 1-10.

  • Jika Anda menggunakan persentil sebagai ambang atas, pada nilai untuk persentil ke-90, 90 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.

  • Jika Anda menggunakan persentil sebagai ambang bawah, pada nilai untuk persentil ke-10, 10 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.

  1. Untuk Set ambang, pilih ClipPeaksAndSubPeaks.

  2. Untuk Ambang atas, pilih Persentil, dan untuk Angka persentil, ketik 90.

  3. Untuk Nilai pengganti atas, pilih Nilai Tidak Ada.

  4. Untuk Ambang bawah, pilih Persentil, dan untuk Angka persentil, ketik 10.

  5. Untuk Nilai pengganti yang lebih rendah, pilih Nilai Tidak Ada.

  6. Batalkan pilihan Timpa bendera, dan pilih opsi, Tambahkan kolom indikator.

Sekarang coba percobaan yang sama menggunakan 60 sebagai ambang persentil atas dan 30 sebagai ambang persentil yang lebih rendah, dan gunakan nilai ambang batas sebagai nilai penggantian. Tabel berikut membandingkan kedua hasil ini:

  1. Ganti dengan hilang; Ambang batas atas = 90; Ambang batas bawah = 10

  2. Ganti dengan ambang batas; Persentil atas = 60; Persentil lebih rendah = 30

Data asli Ganti dengan tidak ada Ganti dengan ambang
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Catatan teknis

  • Anda dapat menggunakan Nilai Klip hanya pada kolom yang berisi angka atau nilai tanggal/waktu.

  • Jika Anda menyertakan kolom yang memiliki teks atau data kategoris, kolom akan dilewati.

  • Nilai yang hilang diabaikan ketika nilai rata-rata atau median dihitung untuk kolom.

  • Nilai Klip tidak mendukung data ordinal.

  • Nilai yang hilang tidak diubah saat disebarkan ke himpunan data output. Kolom yang menunjukkan nilai terpotong selalu berisi FALSE untuk nilai yang hilang.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Himpunan data input

Parameter modul

Nama Rentang Jenis Default Deskripsi
Menambahkan kolom indikator BENAR/SALAH Boolean FALSE Apakah akan menambahkan indikator untuk kliping nilai dilakukan
Nilai konstan untuk ambang batas yang lebih rendah apa pun Mengambang -1 Nilai di bawah mana subpeaks akan dipotong
Nilai konstan untuk ambang batas atas apa pun Mengambang 1 Nilai di atas puncak mana akan terpotong
Nilai konstan ambang batas yang lebih rendah apa pun Mengambang -1 Nilai di bawah mana subpeak dipotong
Nilai konstan ambang batas atas >=1 Mengambang 1 Nilai di atas puncak dipotong
Daftar kolom Pilihan Kolom Daftar kolom yang akan di-klip
Nilai pengganti yang lebih rendah Ambang Batas

Rerata

Median

Tidak ada
SubstituteValues Ambang Batas Nilai yang digunakan untuk menjepit subpeak
Ambang batas yang lebih rendah Terus-menerus

Persentil
Mode Ambang Batas Terus-menerus Nilai di bawah mana subpeaks akan dipotong mode
Menimpa bendera BENAR/SALAH Boolean BENAR Apakah kolom data terpotong harus menimpa kolom data input
Angka persentil untuk ambang batas yang lebih rendah [1;99] Bilangan bulat 1 Angka persentil di bawah mana subpeak akan dipotong
Angka persentil untuk ambang batas atas [1;99] Bilangan bulat 99 Angka persentil di atas puncak akan dipotong
Jumlah persentil ambang batas yang lebih rendah [1;99] Bilangan bulat 1 Angka persentil di bawah mana subpeak dipotong
Jumlah persentil ambang batas atas [1;99] Bilangan bulat 99 Angka persentil di atas puncak terpotong
Set ambang batas KlipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Set Ambang Batas KlipPeaks Menentukan jenis ambang batas yang akan digunakan
Nilai pengganti untuk puncak Ambang Batas

Rerata

Median

Tidak ada
SubstituteValues Ambang Batas Nilai yang digunakan selama puncak kliping
Nilai pengganti untuk subpeak Ambang Batas

Rerata

Median

Tidak ada
SubstituteValues Ambang Batas Nilai yang digunakan selama subpeak kliping
Ambang Batas Terus-menerus

Persentil
Mode Ambang Batas Terus-menerus Nilai di atas dan di bawah mana puncak akan dipotong mode
Nilai pengganti atas Ambang Batas

Rerata

Median

Tidak ada
Ambang Batas Ambang Batas Nilai yang digunakan untuk puncak kliping
Ambang batas atas Terus-menerus

Persentil
Mode Ambang Batas Terus-menerus Nilai di atas mana puncak akan dipotong mode

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Himpunan data dengan kolom terpotong

Pengecualian

Pengecualian Deskripsi
Kesalahan 0011 Pengecualian terjadi jika argumen kumpulan kolom yang dilewatkan tidak berlaku untuk kolom himpunan data mana pun.
Kesalahan 0017 Pengecualian terjadi jika satu atau beberapa kolom tertentu memiliki jenis yang tidak didukung oleh modul saat ini.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Skala dan Kurangi
Daftar Modul A-Z