Nilai Klip

Artikel ini menjelaskan komponen perancang Azure Machine Learning.

Gunakan komponen Nilai Klip ​​untuk mengidentifikasi dan secara opsional mengganti nilai data yang berada di atas atau di bawah ambang yang ditentukan dengan rata-rata, konstanta, atau nilai pengganti lainnya.

Anda menghubungkan komponen ke himpunan data yang memiliki angka yang ingin dipotong, memilih kolom yang akan digunakan, lalu mengatur ambang atau rentang nilai, dan metode penggantian. Komponen dapat menampilkan hanya hasil, atau nilai yang diubah ditambahkan ke himpunan data asli.

Cara mengonfigurasi Nilai Klip

Sebelum Anda memulai, identifikasi kolom yang ingin Anda klip, dan metode yang akan digunakan. Sebaiknya uji metode kliping apa pun pada himpunan data kecil terlebih dahulu.

Komponen menerapkan kriteria dan metode penggantian yang sama untuk semua kolom yang Anda sertakan dalam pilihan. Oleh karena itu, pastikan untuk mengecualikan kolom yang tidak ingin Anda ubah.

Jika Anda perlu menerapkan metode kliping atau kriteria yang berbeda untuk beberapa kolom, Anda harus menggunakan instans baru Nilai Klip untuk setiap kumpulan kolom yang serupa.

  1. Tambahkan komponen Nilai Klip ke alur dan hubungkan ke himpunan data yang ingin Anda ubah. Anda dapat menemukan komponen ini di bawah Transformasi Data, dalam kategori Skalakan dan Kurangi.

  2. Di Daftar kolom, gunakan Pemilih Kolom untuk memilih kolom tempat Nilai Klip akan diterapkan.

  3. Untuk Kumpulan ambang, pilih salah satu opsi berikut dari daftar drop-down. Opsi ini menentukan cara Anda menetapkan batas atas dan bawah untuk nilai yang dapat diterima vs. nilai yang harus diklip.

    • ClipPeaks: Saat Anda mengklip nilai menurut puncak, Anda hanya menentukan batas atas. Nilai yang lebih besar dari nilai batas tersebut diganti.

    • ClipSubpeaks: Saat Anda mengklip nilai menurut subpeak, Anda hanya menentukan batas bawah. Nilai yang kurang dari nilai batas tersebut diganti.

    • ClipPeaksAndSubpeaks: Saat Anda mengklip nilai menurut puncak dan subpeak, Anda dapat menentukan batas atas dan bawah. Nilai yang berada di luar rentang tersebut akan diganti. Nilai yang cocok dengan nilai batas tidak diubah.

  4. Bergantung pada pilihan Anda di langkah sebelumnya, Anda dapat mengatur nilai ambang berikut:

    • Ambang bawah: Ditampilkan hanya jika Anda memilih ClipSubPeaks
    • Ambang atas: Ditampilkan hanya jika Anda memilih ClipPeaks
    • Ambang: Ditampilkan hanya jika Anda memilih ClipPeaksAndSubPeaks

    Untuk setiap jenis ambang, pilih Konstanta atau Persentil.

  5. Jika Anda memilih Konstanta, ketik nilai maksimum atau minimum di kotak teks. Misalnya, asumsikan bahwa Anda mengetahui nilai 999 digunakan sebagai nilai tempat penampung. Anda dapat memilih Konstanta untuk ambang atas, dan mengetik 999 di Nilai konstanta untuk ambang atas.

  6. Jika Anda memilih Persentil, Anda membatasi nilai kolom ke rentang persentil.

    Misalnya, asumsikan Anda hanya ingin menyimpan nilai dalam rentang persentil 10-80, dan mengganti yang lainnya. Anda akan memilih Persentil, lalu ketik 10 untuk Nilai persentil untuk ambang bawah, dan ketik 80 untuk Nilai persentil untuk ambang atas.

    Lihat bagian persentil untuk beberapa contoh cara menggunakan rentang persentil.

  7. Tentukan nilai pengganti.

    Angka yang sama persis dengan batas yang Anda tentukan dianggap berada di dalam rentang nilai yang diizinkan, dan karenanya tidak diganti. Semua angka yang berada di luar rentang yang ditentukan diganti dengan nilai pengganti.

    • Nilai pengganti untuk puncak: Menentukan nilai untuk menggantikan semua nilai kolom yang lebih besar dari ambang yang ditentukan.
    • Nilai pengganti untuk subpeak: Menentukan nilai yang akan digunakan sebagai pengganti semua nilai kolom yang kurang dari ambang yang ditentukan.
    • Jika Anda menggunakan opsi ClipPeaksAndSubpeaks, Anda dapat menentukan nilai pengganti terpisah untuk nilai terklip atas dan bawah.

    Nilai penggantian berikut didukung:

    • Ambang: Mengganti nilai yang terklip dengan nilai ambang yang ditentukan.

    • Mean: Mengganti nilai yang terklip dengan nilai mean kolom. Mean dihitung sebelum nilai diklip.

    • Median: Mengganti nilai yang terklip dengan nilai median kolom. Median dihitung sebelum nilai diklip.

    • Tidak ada. Mengganti nilai yang terklip dengan nilai yang hilang (kosong).

  8. Tambahkan kolom indikator: Pilih opsi ini jika Anda ingin membuat kolom baru yang memberi tahu Anda apakah operasi kliping yang ditentukan diterapkan pada data di baris itu atau tidak. Opsi ini berguna saat Anda menguji kumpulan kliping dan nilai pengganti baru.

  9. Timpa bendera: Tunjukkan bagaimana Anda ingin nilai baru dihasilkan. Secara default, Nilai Klip membuat kolom baru dengan nilai puncak terklip ke ambang yang diinginkan. Nilai baru menimpa kolom asli.

    Untuk mempertahankan kolom asli dan menambahkan kolom baru dengan nilai terklip, batalkan pilihan opsi ini.

  10. Kirimkan alur.

    Klik kanan komponen Nilai Klip dan pilih Visualisasikan atau pilih komponen dan alihkan ke tab Output di panel bagian kanan, klik ikon histogram di Output port, untuk meninjau nilai dan memastikan operasi kliping memenuhi harapan Anda.

Contoh kliping menggunakan persentil

Untuk memahami cara kerja kliping menurut persentil, pertimbangkan himpunan data dengan 10 baris, yang masing-masing memiliki satu instans dengan nilai 1-10.

  • Jika Anda menggunakan persentil sebagai ambang atas, pada nilai untuk persentil ke-90, 90 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.

  • Jika Anda menggunakan persentil sebagai ambang bawah, pada nilai untuk persentil ke-10, 10 persen dari semua nilai dalam himpunan data harus kurang dari nilai tersebut.

  1. Untuk Set ambang, pilih ClipPeaksAndSubPeaks.

  2. Untuk Ambang atas, pilih Persentil, dan untuk Angka persentil, ketik 90.

  3. Untuk Nilai pengganti atas, pilih Nilai Tidak Ada.

  4. Untuk Ambang bawah, pilih Persentil, dan untuk Angka persentil, ketik 10.

  5. Untuk Nilai pengganti yang lebih rendah, pilih Nilai Tidak Ada.

  6. Batalkan pilihan Timpa bendera, dan pilih opsi, Tambahkan kolom indikator.

Sekarang coba alur yang sama menggunakan 60 sebagai ambang persentil atas dan 30 sebagai ambang persentil bawah, dan gunakan nilai ambang sebagai nilai pengganti. Tabel berikut membandingkan kedua hasil ini:

  1. Ganti dengan yang hilang; Ambang atas = 90; Ambang bawah = 20

  2. Ganti dengan ambang; Persentil atas = 60; Persentil bawah = 40

Data asli Ganti dengan tidak ada Ganti dengan ambang
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSE

4, FALSE

5, FALSE

6, FALSE

7, FALSE

8, FALSE

9, FALSE

TRUE
4, TRUE

4, TRUE

4, TRUE

4, TRUE

5, FALSE

6, FALSE

7, TRUE

7, TRUE

7, TRUE

7, TRUE

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.