次の方法で共有


microsoftml.mutualinformation_select: 相互情報に基づく特徴選択

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

ラベル列との相互情報で並べ替えられた、指定されたすべての列の上位 k の特徴を選択します。

詳細

2 つのランダム変数 XY の相互情報は、変数間の相互依存性の尺度です。 正式には、相互情報は次のように書くことができます。

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

期待が XYの共同分布を引き継ぐ場所。 ここで p(x,y)XYの結合確率密度関数であり、 p(x)p(y) はそれぞれ XY の限界確率密度関数である。 一般に、従属変数 (またはラベル) と独立変数 (または特徴) の間の相互情報が高いほど、ラベルはその機能に対する相互依存度が高いことを意味します。

相互情報特徴選択モードでは、相互情報に基づいて特徴を選択します。 ラベルとの相互情報が最大の num_features_to_keep 特徴を保持します。

論争

cols

選択する変数の名前の文字列またはリストを指定します。

ラベル

ラベルの名前を指定します。

num_features_to_keep

保持するフィーチャの数が nに指定されている場合、変換は従属変数との相互情報が最も高い n フィーチャを選択します。 既定値は 1000 です。

num_bins

数値のビンの最大数。 2 の累乗が推奨されます。 既定値は 256 です。

kargs

コンピューティング エンジンに送信される追加の引数。

返品ポリシー

変換を定義するオブジェクト。

こちらも参照ください

count_select

References

Wikipedia: 相互情報