Partager via


microsoftml.mutualinformation_select : sélection de fonctionnalités basée sur des informations mutuelles

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Descriptif

Sélectionne les principales caractéristiques k de toutes les colonnes spécifiées classées par leurs informations mutuelles avec la colonne d’étiquette.

Détails

L’information mutuelle de deux variables X aléatoires est Y une mesure de la dépendance mutuelle entre les variables. Formellement, les informations mutuelles peuvent être écrites comme suit :

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

où l’attente est prise sur la distribution conjointe de X et Y. Voici p(x,y) la fonction de densité de probabilité conjointe de X et Y, p(x) et p(y) sont les fonctions de densité de probabilité marginale de X et Y respectivement. En général, une information mutuelle plus élevée entre la variable dépendante (ou l’étiquette) et une variable indépendante (ou fonctionnalité) signifie que l’étiquette a une dépendance mutuelle plus élevée sur cette fonctionnalité.

Le mode de sélection des fonctionnalités d’informations mutuelles sélectionne les fonctionnalités en fonction des informations mutuelles. Elle conserve les num_features_to_keep principales fonctionnalités avec les informations mutuelles les plus importantes avec l’étiquette.

Arguments

cols

Spécifie la chaîne de caractères ou la liste des noms des variables à sélectionner.

label

Spécifie le nom de l’étiquette.

num_features_to_keep

Si le nombre de fonctionnalités à conserver est spécifié n, la transformation sélectionne les n fonctionnalités qui ont les informations mutuelles les plus élevées avec la variable dépendante. La valeur par défaut est 1 000.

num_bins

Nombre maximal de compartiments pour les valeurs numériques. Les pouvoirs de 2 sont recommandés. La valeur par défaut est 256.

kargs

Arguments supplémentaires envoyés au moteur de calcul.

Retours

Objet définissant la transformation.

Voir aussi

count_select

References

Wikipédia : Informations mutuelles