microsoftml.mutualinformation_select : sélection de caractéristiques en fonction de l'information mutuelle
Usage
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Description
Sélectionne les k premières caractéristiques dans toutes les colonnes spécifiées. Celles-ci sont classées d'après leur information mutuelle avec la colonne d'étiquette.
Détails
L'information mutuelle de deux variables aléatoires X
et Y
mesure la dépendance mutuelle entre les variables. Formellement, l'information mutuelle peut s'écrire de la façon suivante :
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
où l'attente est prise sur la distribution jointe de X
et Y
.
p(x,y)
est ici la fonction de densité de probabilité jointe de X
et Y
; p(x)
et p(y)
sont respectivement les fonctions de densité de probabilité marginale de X
et Y
. En général, une information mutuelle plus élevée entre la variable dépendante (ou étiquette) et une variable indépendante (ou caractéristique) signifie que l'étiquette présente une dépendance mutuelle plus élevée par rapport à cette caractéristique.
Le mode de sélection de caractéristiques d'information mutuelle sélectionne les caractéristiques en fonction de l'information mutuelle. Il conserve les num_features_to_keep
premières caractéristiques présentant la plus grande information mutuelle avec l'étiquette.
Arguments
cols
Spécifie une chaîne de caractères ou une liste des noms des variables à sélectionner.
label
Spécifie le nom de l'étiquette.
num_features_to_keep
Si le nombre de caractéristiques à conserver est spécifié comme étant n
, la transformation choisit les n
caractéristiques qui ont la plus grande information mutuelle avec la variable dépendante. La valeur par défaut est 1000.
num_bins
Nombre maximum de classes pour les valeurs numériques. Les puissances de 2 sont recommandées. La valeur par défaut est 256.
kargs
Arguments supplémentaires envoyés au moteur de calcul.
Retours
Objet définissant la transformation.