Bagikan melalui


Modul Pemilihan Fitur

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan modul di Pembelajaran Mesin Studio (klasik) yang dapat Anda gunakan untuk pemilihan fitur.

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Pemilihan fitur adalah alat penting dalam pembelajaran mesin. Pembelajaran Mesin Studio (klasik) menyediakan beberapa metode untuk melakukan pemilihan fitur. Pilih metode pemilihan fitur berdasarkan jenis data yang Anda miliki, dan persyaratan teknik statistik yang diterapkan.

Artikel ini membahas:

Setiap modul pemilihan fitur di Pembelajaran Mesin Studio (klasik) menggunakan himpunan data sebagai input. Kemudian, modul menerapkan metode statistik terkenal ke kolom data yang disediakan sebagai input. Output adalah sekumpulan metrik yang dapat membantu Anda mengidentifikasi kolom yang memiliki nilai informasi terbaik.

Tentang pemilihan fitur

Dalam pembelajaran mesin dan statistik, pemilihan fitur adalah proses memilih subset fitur yang relevan dan berguna untuk digunakan dalam membangun model analitis. Pemilihan fitur membantu mempersempit bidang data ke input yang paling berharga. Mempersempit bidang data membantu mengurangi kebisingan dan meningkatkan kinerja pelatihan.

Seringkali, fitur dibuat dari data mentah melalui proses rekayasa fitur. Misalnya, stempel waktu itu sendiri mungkin tidak berguna untuk pemodelan sampai informasi diubah menjadi unit hari, bulan, atau kategori yang relevan dengan masalah, seperti liburan versus hari kerja.

Pengguna baru pembelajaran mesin mungkin tergoda untuk menyertakan semua data yang tersedia. Mereka mungkin berharap bahwa algoritma akan menemukan sesuatu yang menarik dengan menggunakan lebih banyak data. Namun, pemilihan fitur biasanya dapat meningkatkan model Anda, dan mencegah masalah umum:

  • Data berisi fitur yang berlebihan atau tidak relevan, yang tidak memberikan informasi lebih dari fitur yang saat ini dipilih.
  • Data berisi fitur yang tidak relevan yang tidak memberikan informasi yang berguna dalam konteks apa pun. Termasuk bidang yang tidak relevan tidak hanya meningkatkan waktu yang dibutuhkan untuk melatih data, tetapi juga dapat menyebabkan hasil yang buruk.
  • Dengan beberapa algoritma, memiliki informasi duplikat dalam data pelatihan dapat menyebabkan fenomena yang disebut multikolinearitas. Dalam multikolinearitas, kehadiran dua variabel yang sangat berkorelasi dapat menyebabkan perhitungan untuk variabel lain menjadi jauh kurang akurat.

Tip

Beberapa algoritma pembelajaran mesin di Pembelajaran Mesin Studio (klasik) juga menggunakan pemilihan fitur atau pengurangan dimensi sebagai bagian dari proses pelatihan. Saat Anda menggunakan pelajar ini, Anda dapat melewati proses pemilihan fitur dan membiarkan algoritme memutuskan input terbaik.

Menggunakan pemilihan fitur dalam percobaan

Pemilihan fitur biasanya dilakukan saat Anda menjelajahi data dan mengembangkan model baru. Ingatlah tips ini saat Anda menggunakan pemilihan fitur:

  • Saat menguji, tambahkan pilihan fitur ke eksperimen Anda untuk menghasilkan skor yang menginformasikan keputusan Anda tentang kolom mana yang akan digunakan.
  • Hapus pilihan fitur dari eksperimen saat Anda mengoperasionalkan model.
  • Jalankan pemilihan fitur secara berkala untuk memastikan bahwa data dan fitur terbaik tidak berubah.

Pemilihan fitur berbeda dari rekayasa fitur, yang berfokus pada pembuatan fitur baru dari data yang ada.

Sumber

Metode pemilihan fitur di Pembelajaran Mesin Studio (klasik)

Modul pemilihan fitur berikut disediakan di Pembelajaran Mesin Studio (klasik).

Pilihan Fitur Berbasis Filter

Saat Anda menggunakan modul Pemilihan Fitur Berbasis Filter , Anda dapat memilih dari antara metode pemilihan fitur terkenal. Modul ini mengeluarkan statistik pemilihan fitur dan himpunan data yang difilter.

Pilihan metode pemilihan filter Anda sebagian tergantung pada jenis data input yang Anda miliki.

Metode Input fitur yang didukung Label yang didukung
Korelasi Pearson Kolom numerik dan logis saja Satu kolom numerik atau logis
Skor informasi bersama Semua tipe data Satu kolom dari tipe data apa pun
Koefisien korelasi Kendall Kolom numerik dan logis saja Satu kolom numerik atau logis

Kolom harus memiliki nilai yang dapat diberi peringkat
Koefisien korelasi Spearman Kolom numerik dan logis saja Satu kolom numerik atau logis
Statistik kuadrat chi Semua tipe data Satu kolom dari tipe data apa pun
Skor Fisher Kolom numerik dan logis saja Satu kolom numerik atau logis

Kolom string diberi skor 0
Hitung pemilihan fitur berbasis Semua tipe data Kolom label tidak diperlukan

Analisis Diskriminan Linier Fisher

Linear Discriminant Analysis adalah teknik pembelajaran yang diawasi yang dapat Anda gunakan untuk mengklasifikasikan variabel numerik dalam hubungannya dengan target kategoris tunggal. Metode ini berguna untuk pemilihan fitur karena mengidentifikasi kombinasi fitur atau parameter yang paling memisahkan grup.

Anda dapat menggunakan modul Fisher Linear Discriminant Analysis untuk menghasilkan serangkaian skor untuk ditinjau, atau Anda dapat menggunakan himpunan data pengganti yang dihasilkan oleh modul untuk pelatihan.

Pentingnya Fitur Permutasi

Gunakan modul Permutasi Feature Importance untuk mensimulasikan efek dari serangkaian fitur apa pun pada himpunan data Anda. Modul menghitung skor kinerja untuk model berdasarkan pengocokan acak nilai fitur.

Skor yang mengembalikan modul mewakili potensi perubahan dalam akurasi model terlatih jika nilai berubah. Anda dapat menggunakan skor untuk menentukan efek variabel individual pada model.

Algoritma pembelajaran mesin yang menggabungkan pemilihan fitur

Beberapa algoritma pembelajaran mesin di Pembelajaran Mesin Studio (klasik) mengoptimalkan pemilihan fitur selama pelatihan. Mereka mungkin juga menyediakan parameter yang membantu dalam pemilihan fitur. Jika Anda menggunakan metode yang memiliki heuristik sendiri untuk memilih fitur, seringkali lebih baik mengandalkan heuristik itu daripada memilih fitur sebelumnya.

Algoritma dan metode pemilihan fitur ini digunakan secara internal:

  • Model pohon keputusan yang ditingkatkan untuk klasifikasi dan regresi

    Dalam modul ini, ringkasan fitur dibuat secara internal. Fitur yang memiliki berat 0 tidak digunakan oleh perpecahan pohon. Ketika Anda memvisualisasikan model terlatih terbaik, Anda dapat melihat masing-masing pohon. Jika fitur tidak pernah digunakan di pohon mana pun, fitur ini kemungkinan adalah kandidat untuk dihapus. Untuk mengoptimalkan seleksi, ada baiknya juga menggunakan parameter sweeping.

  • Model regresi logistik dan model linier

    Modul untuk regresi multiclass dan logistik biner mendukung regularisasi L1 dan L2. Regularisasi adalah cara menambahkan kendala selama pelatihan untuk secara manual menentukan aspek dari model yang dipelajari. Regularisasi biasanya digunakan untuk menghindari overfitting. Pembelajaran Mesin Studio (klasik) mendukung regularisasi untuk norma L1 atau L2 dari vektor berat dalam algoritma klasifikasi linier:

    • Regularisasi L1 berguna jika tujuannya adalah untuk memiliki model yang jarang mungkin.
    • Regularisasi L2 mencegah koordinat tunggal dalam vektor bobot agar tidak tumbuh terlalu banyak dalam hal ukuran. Ini berguna jika tujuannya adalah untuk memiliki model dengan bobot keseluruhan kecil.
    • Regresi logistik yang di-regularisasi L1 lebih agresif dalam menetapkan bobot 0 untuk fitur. Ini berguna dalam mengidentifikasi fitur yang dapat dihapus.

Catatan teknis

Semua modul pemilihan fitur dan metode analitis yang mendukung kolom numerik dan logis juga mendukung kolom tanggal-waktu dan rentang waktu. Kolom ini diperlakukan sebagai kolom numerik sederhana di mana setiap nilai sama dengan jumlah kutu.

Modul berikut tidak termasuk dalam kategori Pemilihan Fitur , tetapi Anda dapat menggunakannya untuk tugas terkait. Modul dapat membantu Anda mengurangi dimensi data Anda atau menemukan korelasi:

Jika Anda memiliki himpunan data yang memiliki banyak kolom, gunakan modul Analisis Komponen Utama untuk mendeteksi kolom yang berisi informasi paling banyak tentang data asli.

Modul ini berada dalam kategori Transformasi Data , di bawah Skala dan Kurangi.

Featurization berbasis count adalah teknik baru yang dapat Anda gunakan untuk menentukan fitur yang berguna dengan menggunakan dataset besar. Gunakan modul ini untuk menganalisis himpunan data untuk menemukan fitur terbaik, menyimpan serangkaian fitur untuk digunakan dengan data baru, atau memperbarui kumpulan fitur yang ada.

Gunakan modul ini untuk menghitung satu set koefisien korelasi Pearson untuk setiap kemungkinan pasangan variabel dalam himpunan data input. Koefisien korelasi Pearson, juga disebut tes R Pearson, adalah nilai statistik yang mengukur hubungan linier antara dua variabel.

Modul ini masuk dalam kategori Fungsi Statistik .

Daftar modul

Kategori Pemilihan Fitur mencakup modul-modul ini:

Lihat juga