Teilen über


microsoftml.mutualinformation_select: Featureauswahl basierend auf Transinformation

Verwendung

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

BESCHREIBUNG

Wählt in allen angegebenen Spalten die obersten k Features aus, geordnet nach ihrer Transinformation mit der Bezeichnungsspalte.

Details

Die Transinformation der beiden zufälligen Variablen X und Y ist ein Maß für die gegenseitige Abhängigkeit der Variablen. Formal kann die Transinformation folgendermaßen geschrieben werden:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

wobei der Erwartungswert über die gemeinsame Verteilung von X und Y genommen wird. Dabei ist p(x,y) die gemeinsame Wahrscheinlichkeitsdichtefunktion von X, und Y, p(x) und p(y) sind die Randwahrscheinlichkeitsdichtefunktionen von X bzw. Y. Im Allgemeinen bedeutet mehr Transinformation zwischen der abhängigen Variablen (oder Bezeichnung) und einer unabhängigen Variablen (oder einem Feature), dass die Bezeichnung eine höhere gegenseitige Abhängigkeit gegenüber diesem Feature aufweist.

Der Featureauswahlmodus für Transinformation wählt die Features basierend auf der Transinformation aus. Er behält die wichtigsten num_features_to_keep Features mit der höchsten Transinformation mit der Bezeichnung bei.

Argumente

cols

Gibt eine Zeichenfolge oder Liste mit den Namen der auszuwählenden Variablen an.

label

Gibt den Namen der Bezeichnung an.

num_features_to_keep

Wenn die Anzahl der beizubehaltenden Features mit n angegeben wird, wählt die Transformation die n Features aus, die die höchste Transinformation mit der abhängigen Variable haben. Der Standardwert lautet „1000“.

num_bins

Maximale Anzahl von Intervallen für numerische Werte. Zweierpotenzen werden empfohlen. Der Standardwert ist 256.

kargs

Zusätzliche Argumente, die an die Compute-Engine gesendet werden.

Gibt zurück

Ein Objekt, das die Transformation definiert.

Siehe auch

count_select

Referenzen

Wikipedia: Transinformation