microsoftml.mutualinformation_select: seleção de recursos com base em informações mútuas
Uso
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Descrição
Seleciona os mil recursos principais em todas as colunas especificadas, ordenados pelas respectivas informações mútuas com a coluna de rótulo.
Detalhes
As informações mútuas de duas variáveis aleatórias X
e Y
são uma medida da dependência mútua entre as variáveis. Formalmente, as informações mútuas podem ser escritas como:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
em que a expectativa é obtida sobre a distribuição conjunta de X
e Y
. Aqui, p(x,y)
é a função de densidade de probabilidade conjunta de X
e Y
. p(x)
e p(y)
são as funções de densidade de probabilidade marginal de X
e Y
, respectivamente. Em geral, uma informação mútua mais alta entre a variável (ou o rótulo) dependente e uma variável (ou recurso) independente significa que o rótulo tem maior dependência mútua sobre esse recurso.
O modo de seleção de recursos de informações mútuas seleciona os recursos com base nas informações mútuas. Ele mantém os num_features_to_keep
principais recursos com as maiores informações mútuas com o rótulo.
Argumentos
cols
Especifica uma cadeia de caracteres ou lista de nomes de variáveis a ser selecionada.
label
Especifica o nome do rótulo.
num_features_to_keep
Se o número de recursos a serem mantidos for especificado como n
, a transformação escolherá os n
recursos que têm as maiores informações mútuas com a variável dependente. O valor padrão é 1000.
num_bins
Número máximo de compartimentos para valores numéricos. São recomendadas potências de 2. O valor padrão é 256.
kargs
Argumentos adicionais enviados ao mecanismo de computação.
Retornos
Um objeto que define a transformação.