Compartir vía


microsoftml.mutualinformation_select: selección de características basada en la información mutua

Uso

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Descripción

Selecciona las k características más importantes entre todas las columnas especificadas, ordenadas por su información mutua con la columna de la etiqueta.

Detalles

La información mutua de dos variables aleatorias X y Y es una medida de la dependencia mutua entre las variables. Formalmente, la información mutua se puede escribir del siguiente modo:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

donde la expectativa se toma de la distribución conjunta de X y Y. Aquí, p(x,y) es la función de densidad de probabilidad conjunta de X y Y; p(x) y p(y) son las funciones de densidad de probabilidad marginal de X y Y, respectivamente. En general, una mayor información mutua entre la variable dependiente (o etiqueta) y una variable independiente (o característica) significa que la etiqueta tiene una mayor dependencia mutua de esa característica.

El modo de selección de características de información mutua elige las características en función de la información mutua. Mantiene las num_features_to_keep características más importantes con la información mutua de mayor tamaño con la etiqueta.

Argumentos

cols

Especifica la cadena de caracteres o la lista de nombres de las variables que se deben seleccionar.

label

Especifica el nombre de la etiqueta.

num_features_to_keep

Si se especifica que el número de características que deben mantenerse es n, la transformación elige las n características que tienen la información mutua más alta con la variable dependiente. El valor predeterminado es 1000.

num_bins

Número máximo de intervalos de valores numéricos. Se recomiendan potencias de 2. El valor predeterminado es 256.

kargs

Argumentos adicionales que se envían al motor de proceso.

Devoluciones

Objeto que define la transformación.

Vea también

count_select

Referencias

Wikipedia: Información mutua