Compartilhar via


microsoftml.mutualinformation_select: Seleção de recursos com base em informações mútuas

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

Seleciona os principais recursos k em todas as colunas especificadas ordenadas por suas informações mútuas com a coluna de rótulo.

Detalhes

As informações mútuas de duas variáveis aleatórias X e Y é uma medida da dependência mútua entre as variáveis. Formalmente, as informações mútuas podem ser escritas como:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

onde a expectativa é tomada sobre a distribuição conjunta de X e Y. Aqui p(x,y) está a função de densidade de probabilidade conjunta de X e Y, p(x) e p(y) são as funções de densidade de probabilidade marginal de X e Y respectivamente. Em geral, uma informação mútua mais alta entre a variável dependente (ou rótulo) e uma variável independente (ou recurso) significa que o rótulo tem maior dependência mútua sobre esse recurso.

O modo de seleção de recursos de informações mútuas seleciona os recursos com base nas informações mútuas. Ele mantém os principais num_features_to_keep recursos com as maiores informações mútuas com o rótulo.

Arguments

Cols

Especifica a cadeia de caracteres ou a lista dos nomes das variáveis a serem selecionadas.

etiqueta

Especifica o nome do rótulo.

num_features_to_keep

Se o número de recursos a serem mantidos for especificado n, a transformação escolherá os n recursos que têm as informações mútuas mais altas com a variável dependente. O valor padrão é 1000.

num_bins

Número máximo de compartimentos para valores numéricos. Os poderes de 2 são recomendados. O valor padrão é 256.

kargs

Argumentos adicionais enviados ao mecanismo de computação.

Devoluções

Um objeto que define a transformação.

Consulte também

count_select

Referências

Wikipédia: Informações Mútuas