microsoftml.count_select: Pilihan fitur berdasarkan informasi mutual
Penggunaan
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Deskripsi
Memilih fitur k teratas di semua kolom tertentu yang diurutkan berdasarkan informasi bersamanya dengan kolom label.
Detail
Informasi bersama dari dua variabel X
acak dan Y
merupakan ukuran ketergantungan bersama antara variabel. Secara resmi, informasi bersama dapat ditulis sebagai:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
di mana harapan diambil alih distribusi X
bersama dan Y
. Berikut p(x,y)
adalah fungsi kerapatan probabilitas bersama dan X
Y
, p(x)
dan p(y)
merupakan fungsi kerapatan probabilitas marginal dan X
Y
masing-masing. Secara umum, informasi bersama yang lebih tinggi antara variabel dependen (atau label) dan variabel independen (atau fitur) berarti bahwa label memiliki ketergantungan bersama yang lebih tinggi atas fitur tersebut.
Mode pemilihan fitur informasi bersama memilih fitur berdasarkan informasi bersama. Ini menjaga fitur teratas num_features_to_keep
dengan informasi bersama terbesar dengan label.
Argumen
Cols
Menentukan string karakter atau daftar nama variabel yang akan dipilih.
label
Menentukan nama label.
num_features_to_keep
Jika jumlah fitur yang akan disimpan ditentukan menjadi n
, transformasi memilih n
fitur yang memiliki informasi bersama tertinggi dengan variabel dependen. Nilai defaultnya adalah 1000.
num_bins
Jumlah maksimum bin untuk nilai numerik. Kekuatan 2 direkomendasikan. Nilai defaultnya adalah 256.
karg
Argumen tambahan dikirim ke mesin komputasi.
Mengembalikan
Objek yang menentukan transformasi.