Seleção de funcionalidades baseadas em filtro

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Identifica as características num conjunto de dados com o maior poder preditivo

Categoria: Módulos de Seleção de Recursos

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de seleção de recursos baseado em filtros no Machine Learning Studio (clássico), para identificar as colunas no seu conjunto de dados de entrada que têm a maior potência preditiva.

Em geral, a seleção de recursos refere-se ao processo de aplicação de testes estatísticos às entradas, dada uma determinada saída, para determinar quais as colunas mais preditivas da saída. O módulo de seleção de recursos baseado em filtros fornece vários algoritmos de seleção de recursos para escolher, incluindo métodos de correlação como a correlação de Pearsons ou Kendall, pontuações de informação mútua e valores chi-quadrados. Machine Learning também suporta as contagens de valor de recurso como indicador do valor da informação.

Quando utilizar o módulo de seleção de recursos baseado em filtro , fornece um conjunto de dados, identifica a coluna que contém o rótulo ou variável dependente e, em seguida, especifica um único método para usar na medição da importância da funcionalidade.

O módulo produz um conjunto de dados que contém as melhores colunas de recurso, classificadas pela potência preditiva. Também produz os nomes das funcionalidades e as suas pontuações a partir da métrica selecionada.

O que é a seleção de funcionalidades baseada em filtros e por que usá-lo?

Este módulo para a seleção de funcionalidades chama-se "baseado em filtros" porque utiliza a métrica selecionada para identificar atributos irrelevantes e filtrar colunas redundantes do seu modelo. Você escolhe uma única medida estatística que se adequa aos seus dados, e o módulo calcula uma pontuação para cada coluna de recurso. As colunas são devolvidas classificadas pelas suas pontuações de recurso.

Ao escolher as características certas, pode potencialmente melhorar a precisão e eficiência da classificação.

Normalmente, usa-se apenas as colunas com as melhores pontuações para construir o seu modelo preditivo. Colunas com pontuações de seleção de recursos deficientes podem ser deixadas no conjunto de dados e ignoradas quando se constrói um modelo.

Como escolher uma métrica de seleção de recursos

A Seleção de Recursos Baseada em Filtros fornece uma variedade de métricas para avaliar o valor da informação em cada coluna. Esta secção fornece uma descrição geral de cada métrica, e como é aplicada. Os requisitos adicionais para a utilização de cada métrica estão indicados na secção Notas Técnicas e nas instruções para configurar cada módulo.

Correlação Pearson

A estatística de correlação de Pearson, ou coeficiente de correlação de Pearson, também é conhecida nos modelos estatísticos como o r valor. Para duas variáveis, devolve um valor que indica a força da correlação

O coeficiente de correlação de Pearson é calculado tomando a covariância de duas variáveis e dividindo-se pelo produto dos seus desvios padrão. O coeficiente não é afetado por alterações de escala nas duas variáveis.
Informação Mútua

A pontuação da informação mútua mede o contributo de uma variável para reduzir a incerteza sobre o valor de outra variável: a saber, o rótulo. Muitas variações da pontuação da informação mútua foram concebidas de acordo com diferentes distribuições.

A pontuação de informação mútua é particularmente útil na seleção de recursos porque maximiza a informação mútua entre a distribuição conjunta e variáveis-alvo em conjuntos de dados com muitas dimensões.
Correlação Kendall

A correlação de classificação de Kendall é uma das várias estatísticas que medem a relação entre classificações de diferentes variáveis ordináeis ou diferentes classificações da mesma variável. Por outras palavras, mede a semelhança das encomendas quando classificadas pelas quantidades. Tanto este coeficiente como o coeficiente de correlação de Spearman são concebidos para utilização com dados não paramétricos e não normalmente distribuídos.
Correlação de Spearman

O coeficiente de Spearman é uma medida não paramétrica de dependência estatística entre duas variáveis, e é por vezes denotado pela letra grega rho. O coeficiente do Spearman expressa o grau em que duas variáveis estão monotonicamente relacionadas. Também é chamada de correlação de classificação de Spearman, porque pode ser usada com variáveis ordinais.
Chi Quadrado

O teste chi-quadrado de duas vias é um método estatístico que mede a proximidade dos valores esperados aos resultados reais. O método pressupõe que as variáveis são aleatórias e extraídas de uma amostra adequada de variáveis independentes. A estatística chi-quadrada resultante indica a distância dos resultados do resultado esperado (aleatório).
Pontuação de Fisher

A pontuação fisher (também chamada de fisher método, ou pontuação de probabilidade combinada fisher) é por vezes denominada a pontuação da informação, porque representa a quantidade de informação que uma variável fornece sobre algum parâmetro desconhecido de que depende.

A pontuação é calculada medindo a variação entre o valor esperado da informação e o valor observado. Quando a variação é minimizada, a informação é maximizada. Uma vez que a expectativa do resultado é zero, a informação de Fisher é também a variação do resultado.
Baseado em Contagem

A seleção de recursos baseados no conde é uma forma simples, mas relativamente poderosa, de encontrar informações sobre preditores. A ideia básica subjacente à conte-baseada na caracterização é simples: ao calcular as contagens de valores individuais dentro de uma coluna, pode-se ter uma ideia da distribuição e peso dos valores, e a partir daí, compreender quais as colunas que contêm a informação mais importante.

A seleção de recursos baseada em contagem é um método não supervisionado de seleção de recursos, o que significa que você não precisa de uma coluna de etiqueta. Este método também reduz a dimensionalidade dos dados sem perder informação.

Para obter mais informações sobre como as funcionalidades baseadas na contagem são criadas e por que são úteis na aprendizagem automática, consulte Aprendizagem com o Counts.

Dica

Se precisar de uma opção diferente para o método de seleção de funcionalidades personalizadas, utilize o módulo Executar Script R .

Como configurar a seleção de recursos Filter-Based

Este módulo fornece dois métodos para determinar pontuações de características:

Gerar pontuações de recursos usando uma métrica estatística tradicional

Você escolhe uma métrica estatística padrão, e o módulo calcula a correlação entre um par de colunas, a coluna de etiqueta e uma coluna de características
Utilizar a seleção de recursos baseados na contagem

Com o método baseado na contagem, o módulo calcula uma pontuação baseada apenas nos valores da coluna.

Gerar pontuações de recursos usando uma métrica estatística tradicional

Adicione o módulo de seleção de recursos baseado em filtro à sua experiência. Pode encontrá-lo na categoria de Seleção de Recursos em Estúdio (clássico).
Ligação um conjunto de dados de entrada que contém pelo menos duas colunas que são características potenciais.

Para garantir que uma coluna deve ser analisada e uma pontuação de funcionalidade gerada, utilize o módulo editar metadados para definir o atributo IsFeature .

Importante

Certifique-se de que as colunas que está a fornecer como entrada são características potenciais. Por exemplo, uma coluna que contenha um único valor não tem valor de informação.

Se souber que existem colunas que fariam más características, pode removê-las da seleção da coluna. Também pode utilizar o módulo editar metadados para os sinalizar como Categoricais.

Para o método de pontuação de recurso, escolha um dos seguintes métodos estatísticos estabelecidos para utilizar no cálculo das pontuações.

Método	Requisitos
Correlação Pearson	A etiqueta pode ser texto ou numérico. As características devem ser numéricas.
Informação Mútua	As etiquetas e funcionalidades podem ser texto ou numérico. Utilize este método para calcular a importância do recurso para duas colunas categóricas.
Correlação Kendall	A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
Correlação de Spearman	A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
Chi Quadrado	As etiquetas e funcionalidades podem ser texto ou numérico. Utilize este método para calcular a importância do recurso para duas colunas categóricas.
Pontuação de Fisher	A etiqueta pode ser texto ou numérico, mas as características devem ser numéricas.
Contagens	Ver: Utilizar Count-Based Seleção de Recursos

Dica

Se alterar a métrica selecionada, todas as outras seleções serão reiniciadas, por isso certifique-se de definir esta opção primeiro!)

Selecione o 'Operar' em colunas de funcionalidades apenas para gerar uma pontuação apenas para as colunas que foram previamente marcadas como funcionalidades.

Se desmarcar esta opção, o módulo criará uma pontuação para qualquer coluna que, de outra forma, satisfaça os critérios, até ao número de colunas especificadas no Número de características desejadas.
Para a coluna Target, clique no seletor de colunas de lançamento para escolher a coluna de etiquetas pelo nome ou pelo seu índice (os índices são de uma base).

É necessária uma coluna de etiquetas para todos os métodos que envolvam correlação estatística. O módulo devolve um erro de tempo de conceção se não escolher nenhuma coluna de etiqueta ou várias colunas de etiquetas.
Para o Número de funcionalidades desejadas, escreva o número de colunas de funcionalidades que pretende devolvidas como resultado.
- O número mínimo de funcionalidades que pode especificar é 1, mas recomendamos que aumente este valor.
- Se o número especificado de características desejadas for maior do que o número de colunas no conjunto de dados, então todas as funcionalidades são devolvidas, mesmo aquelas com pontuações zero.
- Se especificar menos colunas de resultados do que as colunas de funcionalidades, as funcionalidades são classificadas por pontuação descendente e apenas as características superiores são devolvidas.
Executar a experiência ou selecione o módulo de seleção de funções baseada no filtro e, em seguida, clique em Executar selecionado.

Resultados da seleção de recursos

Após o processamento estar concluído:

Para ver uma lista completa das colunas de funcionalidades analisadas e as suas pontuações, clique com o botão direito no módulo, selecione Funcionalidades e clique em Visualizar.
Para ver o conjunto de dados gerado com base nos critérios de seleção de recursos, clique no módulo, selecione Dataset e clique em Visualizar.

Se o conjunto de dados contiver menos colunas do que o esperado, verifique as definições do módulo e os tipos de dados das colunas fornecidas como entrada. Por exemplo, se definir Número de características desejadas para 1, o conjunto de dados de saída contém apenas duas colunas: a coluna de etiquetas e a coluna de características mais bem classificada.

Utilizar a seleção de recursos baseados na contagem

Adicione o módulo de seleção de recursos baseado em filtro à sua experiência. Pode encontrá-lo na lista de módulos em Studio (clássico), no grupo De seleção de recursos .
Ligação um conjunto de dados de entrada que contém pelo menos duas colunas que são possíveis.
Selecione Count Baseado na lista de métodos estatísticos na lista de redução do método de pontuação de funcionalidade .
Para o número mínimo de elementos não nulos, indique o número mínimo de colunas de características a incluir na saída.

Por predefinição, o módulo produz todas as colunas que satisfaçam os requisitos. O módulo não pode desaussa qualquer coluna que obtenha uma pontuação de zero.
Executar a experiência, ou selecionar apenas o módulo, e clique em Executar Selecionado.

Resultados da seleção de recursos baseados na contagem

Para ver a lista de colunas de funcionalidades com as suas pontuações, clique com o botão direito no módulo, selecione Funcionalidades e clique em Visualizar .
Para ver o conjunto de dados que contém as colunas analisadas, clique no módulo, selecione Dataset e clique em Visualizar.

Ao contrário de outros métodos, o método de seleção de recursos Count Based não classifica as variáveis por pontuações mais altas, mas devolve todas as variáveis com uma pontuação não-zero, na sua ordem original.

As características das cordas obtêm sempre uma pontuação zero (0) e, portanto, não são saídas.

Exemplos

Pode ver exemplos de como a seleção de recursos é usada na Galeria Azure AI:

Classificação de Texto; No terceiro passo desta amostra, a Seleção de Recursos Baseadas em Filtros é usada para identificar as 15 melhores funcionalidades. O hashing de recurso é usado para converter os documentos de texto em vetores numéricos. A correlação de Pearson é então usada nas características do vetor.
Machine learning feature selection e engenharia de recursos: Este artigo fornece uma introdução à seleção de recursos e engenharia de recursos em machine learning.

Para ver exemplos de pontuações de funcionalidades, consulte tabela de pontuações em comparação.

Notas técnicas

Pode encontrar este módulo na categoria De Transformação de Dados, na categoria Filtros .

Detalhes de implementação

Se utilizar a Correlação Pearson, a Correlação Kendall ou a Correlação de Spearman numa característica numérica e num rótulo categórico, a pontuação de recurso é calculada da seguinte forma:

Para cada nível na coluna categórica, calcule a média condicional da coluna numérica.
Correlacionar a coluna dos meios condicional com a coluna numérica.

Requisitos

Uma pontuação de seleção de recursos não pode ser gerada para qualquer coluna que seja designada como uma etiqueta ou como uma coluna de pontuação .
Se tentar utilizar um método de pontuação com uma coluna de um tipo de dado não suportado pelo método, ou o módulo levantará um erro, ou uma pontuação zero será atribuída à coluna.
Se uma coluna contiver valores lógicos (verdadeiros/falsos), são processados como Verdadeiro = 1 e Falso = 0.
Uma coluna não pode ser uma característica se tiver sido designada como Etiqueta ou Pontuação.

Como os valores em falta são tratados

Não é possível especificar como coluna alvo (etiqueta) qualquer coluna que tenha todos os valores em falta.
Se uma coluna contiver valores em falta, são ignorados ao calcular a pontuação para a coluna.
Se uma coluna designada como coluna de recurso tiver todos os valores em falta, é atribuída uma pontuação zero.

Tabela de pontuações comparadas

Para lhe dar uma ideia de como as pontuações se comparam ao usar diferentes métricas, a tabela seguinte apresenta algumas pontuações de seleção de recursos de várias características no conjunto de dados de preços do automóvel, dada a variável dependente highway-mpg.

Coluna de recursos	Pontuação de Pearson	Contagem de pontuação	Pontuação de Kendall	Informação mútua
km/l em autoestrada	1	205	1	1
city-mpg	0.971337	205	0.892472	0.640386
curb-weight	0.797465	171	0.673447	0.326247
potência	0.770908	203	0.728289	0.448222
preço	0.704692	201	0.651805	0.321788
length	0.704662205	205	0.53193	0.281317
tamanho do motor	0.67747	205	0.581816	0.342399
largura	0.677218	205	0.525585	0.285006
bore	0.594572	201	0.467345	0.263846
distância entre os eixos	0.544082	205	0.407696	0.250641
compression-ratio	0.265201	205	0.337031	0.288459
sistema de combustível	na	na	na	0.308135
make	na	na	na	0.213872
rodas de unidade	na	na	na	0.213171
altura	na	na	na	0.1924
perdas normalizadas	na	na	na	0.181734
symboling	na	na	na	0.159521
num-de-cilindros	na	na	na	0.154731
tipo de motor	na	na	na	0.135641
aspiração	na	na	na	0.068217
estilo de carroçaria	na	na	na	0.06369
tipo de combustível	na	na	na	0.049971
num-de-portas	na	na	na	0.017459
Localização do motor	na	na	na	0.010166

As pontuações de informação mútua podem ser criadas para todos os tipos de colunas, incluindo cordas.
As outras pontuações incluídas nesta tabela, como a correlação de Pearson ou a seleção de recursos baseados na contagem, requerem valores numéricos. As características de corda obtêm uma pontuação de 0 e, portanto, não estão incluídas na saída. Para exceções, consulte a secção Notas Técnicas .
O método baseado na contagem não trata uma coluna de etiquetas de forma diferente das colunas de características.

Entradas esperadas

Nome	Tipo	Description
Conjunto de dados	Tabela de Dados	Conjunto de dados de entrada

Parâmetros do módulo

Nome	Intervalo	Tipo	Predefinição	Description
Método de pontuação de recursos	Lista	Método de pontuação		Escolha o método a utilizar para marcar
Operar apenas em colunas de recurso	Qualquer	Booleano	true	Indicar se deve usar apenas colunas de recurso no processo de pontuação
Coluna-alvo	Qualquer	Seleção de Colunas	Nenhuma	Especificar a coluna-alvo
Número de características desejadas	>=1	Número inteiro	1	Especificar o número de funcionalidades para a produção nos resultados
Número mínimo de elementos não nulos	>=1	Número inteiro	1	Especificar o número de funcionalidades de saída (para o método CountBased)

Saídas

Nome	Tipo	Description
Conjunto de dados filtrado	Tabela de Dados	Conjunto de dados filtrado
Funcionalidades	Tabela de Dados	Nomes das colunas de saída e pontuações de seleção de recursos

Exceções

Exceção	Description
Erro 0001	A exceção ocorre se uma ou mais colunas especificadas de conjunto de dados não puderem ser encontradas.
Erro 0003	A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0004	A exceção ocorre se o parâmetro for inferior ou igual ao valor específico.
Erro 0017	A exceção ocorre se uma ou mais colunas especificadas tiverem o tipo não suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Seleção de Recursos
Análise Discriminante Linear de Fisher
Lista de Módulos A-Z

Partilhar via