Usage
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Description
选择所有指定列的顶部 k 特征,这些特征按它们与标签列的相互信息排序。
详细信息
两个随机变量 X 的相互信息, Y 是变量之间相互依赖的度量值。 正式而言,相互信息可以编写为:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
其中,期望被接管的联合分配 X 和 Y。 下面是p(x,y)联合概率密度函数X,Yp(x)并且p(y)是其边际概率密度函数X以及Y分别。 一般情况下,依赖变量(或标签)与独立变量(或特征)之间的相互信息越高,意味着标签对该功能具有更高的相互依赖性。
相互信息功能选择模式根据相互信息选择特征。 它使顶部 num_features_to_keep 功能与标签的最大相互信息保持。
Arguments
cols
指定要选择的变量名称的字符串或列表。
标签
指定标签的名称。
num_features_to_keep
如果指定要 n保留的特征数,转换将选取 n 具有与依赖变量的最高相互信息的特征。 默认值为 1000。
num_bins
数值的最大箱数。 建议使用 2 的幂。 默认值为 256。
kargs
发送到计算引擎的其他参数。
退货
定义转换的对象。