microsoftml.count_select: Pilihan fitur berdasarkan informasi mutual

Penggunaan

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Deskripsi

Memilih fitur k teratas di semua kolom tertentu yang diurutkan berdasarkan informasi bersamanya dengan kolom label.

Detail

Informasi bersama dari dua variabel X acak dan Y merupakan ukuran ketergantungan bersama antara variabel. Secara resmi, informasi bersama dapat ditulis sebagai:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

di mana harapan diambil alih distribusi X bersama dan Y. Berikut p(x,y) adalah fungsi kerapatan probabilitas bersama dan XY, p(x) dan p(y) merupakan fungsi kerapatan probabilitas marginal dan XY masing-masing. Secara umum, informasi bersama yang lebih tinggi antara variabel dependen (atau label) dan variabel independen (atau fitur) berarti bahwa label memiliki ketergantungan bersama yang lebih tinggi atas fitur tersebut.

Mode pemilihan fitur informasi bersama memilih fitur berdasarkan informasi bersama. Ini menjaga fitur teratas num_features_to_keep dengan informasi bersama terbesar dengan label.

Argumen

Cols

Menentukan string karakter atau daftar nama variabel yang akan dipilih.

label

Menentukan nama label.

num_features_to_keep

Jika jumlah fitur yang akan disimpan ditentukan menjadi n, transformasi memilih n fitur yang memiliki informasi bersama tertinggi dengan variabel dependen. Nilai defaultnya adalah 1000.

num_bins

Jumlah maksimum bin untuk nilai numerik. Kekuatan 2 direkomendasikan. Nilai defaultnya adalah 256.

karg

Argumen tambahan dikirim ke mesin komputasi.

Mengembalikan

Objek yang menentukan transformasi.

Lihat juga

count_select

Referensi

Wikipedia: Informasi Bersama