microsoftml.mutualinformation_select:基于相互信息的功能选择

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

选择所有指定列的顶部 k 特征,这些特征按它们与标签列的相互信息排序。

详细信息

两个随机变量 X 的相互信息, Y 是变量之间相互依赖的度量值。 正式而言,相互信息可以编写为:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

其中,期望被接管的联合分配 XY。 下面是p(x,y)联合概率密度函数XYp(x)并且p(y)是其边际概率密度函数X以及Y分别。 一般情况下,依赖变量(或标签)与独立变量(或特征)之间的相互信息越高,意味着标签对该功能具有更高的相互依赖性。

相互信息功能选择模式根据相互信息选择特征。 它使顶部 num_features_to_keep 功能与标签的最大相互信息保持。

Arguments

cols

指定要选择的变量名称的字符串或列表。

标签

指定标签的名称。

num_features_to_keep

如果指定要 n保留的特征数,转换将选取 n 具有与依赖变量的最高相互信息的特征。 默认值为 1000。

num_bins

数值的最大箱数。 建议使用 2 的幂。 默认值为 256。

kargs

发送到计算引擎的其他参数。

退货

定义转换的对象。

另请参阅

count_select

References

维基百科:相互信息