microsoftml.mutualinformation_select:基於互信息的特徵選擇

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

根據標籤欄的互信息排序,選取所有指定欄位中前 k 個特徵。

詳細資訊

兩個隨機變數 XY 的互信息量是衡量變數間相互依賴性的指標。 形式上,互信息可寫成:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

其中期望值取於 與 YX聯合分布。 這裡p(x,y)是 和 YX聯合機率密度函數,p(x)分別為 p(y)YX邊際機率密度函數。 一般而言,依變數(或標籤)與自變數(或特徵)之間的相互信息越高,表示該標籤對該特徵的相互依賴性越高。

互信息特徵選擇模式是根據互信息選擇特徵。 它保留了與標籤間最大互惠資訊的頂尖 num_features_to_keep 功能。

Arguments

科爾斯

指定要選取變數名稱的字串或清單。

標籤

標明標籤名稱。

num_features_to_keep

若指定保留特徵數為 n,轉換會 n 選擇與依變數互信息量最高的特徵。 預設值為 1000。

num_bins

數值的最大箱數。 建議使用2的次方。 預設值是 256。

卡格族

額外參數送入計算引擎。

退貨

一個定義轉換的物件。

另請參閱

count_select

參考資料

維基百科:互惠資訊