Usage
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Description
根據標籤欄的互信息排序,選取所有指定欄位中前 k 個特徵。
詳細資訊
兩個隨機變數 X 和 Y 的互信息量是衡量變數間相互依賴性的指標。 形式上,互信息可寫成:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
其中期望值取於 與 Y的X聯合分布。 這裡p(x,y)是 和 Y的X聯合機率密度函數,p(x)分別為 p(y) 和 Y 的X邊際機率密度函數。 一般而言,依變數(或標籤)與自變數(或特徵)之間的相互信息越高,表示該標籤對該特徵的相互依賴性越高。
互信息特徵選擇模式是根據互信息選擇特徵。 它保留了與標籤間最大互惠資訊的頂尖 num_features_to_keep 功能。
Arguments
科爾斯
指定要選取變數名稱的字串或清單。
標籤
標明標籤名稱。
num_features_to_keep
若指定保留特徵數為 n,轉換會 n 選擇與依變數互信息量最高的特徵。 預設值為 1000。
num_bins
數值的最大箱數。 建議使用2的次方。 預設值是 256。
卡格族
額外參數送入計算引擎。
退貨
一個定義轉換的物件。