Partilhar via


microsoftml.mutualinformation_select: Seleção de funcionalidades com base em informação mútua

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

Seleciona as k principais características em todas as colunas especificadas, ordenadas pela sua informação mútua com a coluna do rótulo.

Detalhes

A informação mútua de duas variáveis X aleatórias e Y é uma medida da dependência mútua entre as variáveis. Formalmente, a informação mútua pode ser escrita como:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

onde a esperança é tomada sobre a distribuição conjunta de X e Y. Aqui p(x,y) é a função de densidade de probabilidade conjunta de X e Y, p(x) e p(y) são as funções de densidade de probabilidade marginal de X e Y respetivamente. Em geral, uma maior informação mútua entre a variável dependente (ou rótulo) e uma variável (ou característica) independente significa que o rótulo tem maior dependência mútua sobre essa característica.

O modo de seleção de características de informação mútua seleciona as características com base na informação mútua. Mantém as características principais num_features_to_keep com a maior informação mútua com a etiqueta.

Arguments

Cols

Especifica a cadeia de caracteres ou a lista dos nomes das variáveis a selecionar.

etiqueta

Especifica o nome da editora.

num_features_to_keep

Se o número de características a manter for especificado como n, a transformada escolhe as n características que têm a maior informação mútua com a variável dependente. O valor padrão é 1000.

num_bins

Número máximo de bins para valores numéricos. Poderes de 2 são recomendados. O valor padrão é 256.

Kargs

Argumentos adicionais enviados ao motor de computação.

Devoluções

Um objeto que define a transformação.

Consulte também

count_select

Referências

Wikipédia: Informação Mútua