Dela via


microsoftml.mutualinformation_select: Funktionsval baserat på ömsesidig information

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

Väljer de översta k funktionerna i alla angivna kolumner ordnade efter deras ömsesidiga information med etikettkolumnen.

Detaljer

Ömsesidig information om två slumpmässiga variabler X och Y är ett mått på det ömsesidiga beroendet mellan variablerna. Formellt kan den ömsesidiga informationen skrivas som:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

där förväntningarna tas över den gemensamma fördelningen av X och Y. Här p(x,y) är funktionen för gemensam sannolikhetsdensitet för X och Y, p(x) och p(y) är de marginella sannolikhetsdensitetsfunktionerna X för respektive Y . I allmänhet innebär en högre ömsesidig information mellan den beroende variabeln (eller etiketten) och en oberoende variabel (eller funktion) att etiketten har ett högre ömsesidigt beroende av den funktionen.

Det ömsesidiga funktionsvalsläget för information väljer funktionerna baserat på ömsesidig information. Den behåller de viktigaste num_features_to_keep funktionerna med den största ömsesidiga informationen med etiketten.

Arguments

kolumner

Anger teckensträngen eller listan med namnen på de variabler som ska väljas.

label

Anger namnet på etiketten.

num_features_to_keep

Om antalet funktioner som ska behållas anges till nväljer transformeringen de n funktioner som har den högsta ömsesidiga informationen med den beroende variabeln. Standardvärdet är 1 000.

num_bins

Maximalt antal lagerplatser för numeriska värden. 2-krafter rekommenderas. Standardvärdet är 256.

kargs

Ytterligare argument som skickas till beräkningsmotorn.

Retur

Ett objekt som definierar transformeringen.

Se även

count_select

Referenser

Wikipedia: Ömsesidig information