Módulos de seleção de recursos
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Este artigo descreve os módulos em Machine Learning Studio (clássico) que pode usar para a seleção de recursos.
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
A seleção de recursos é uma ferramenta importante na aprendizagem automática. Machine Learning Studio (clássico) fornece vários métodos para a seleção de recursos. Escolha um método de seleção de recursos com base no tipo de dados que tem e nos requisitos da técnica estatística que é aplicada.
Este artigo abrange:
- O que é a seleção de recursos
- Módulos de seleção de recursos em Machine Learning
- Como utilizar a seleção de recursos
- Algoritmos que incluem seleção de recursos
Cada módulo de seleção de recursos no Machine Learning Studio (clássico) utiliza um conjunto de dados como entrada. Em seguida, o módulo aplica métodos estatísticos bem conhecidos às colunas de dados que são fornecidas como entrada. A saída é um conjunto de métricas que podem ajudá-lo a identificar as colunas que têm o melhor valor de informação.
Sobre a seleção de recursos
No machine learning e nas estatísticas, a seleção de recursos é o processo de seleção de um subconjunto de funcionalidades relevantes e úteis para usar na construção de um modelo analítico. A seleção de recursos ajuda a reduzir o campo de dados às entradas mais valiosas. Reduzir o campo de dados ajuda a reduzir o ruído e a melhorar o desempenho do treino.
Muitas vezes, as funcionalidades são criadas a partir de dados brutos através de um processo de engenharia de recursos. Por exemplo, um carimbo temporal por si só pode não ser útil para modelação até que a informação seja transformada em unidades de dias, meses ou categorias relevantes para o problema, como férias versus dia de trabalho.
Novos utilizadores de machine learning podem ser tentados a incluir todos os dados disponíveis. Podem esperar que o algoritmo encontre algo interessante usando mais dados. No entanto, a seleção de recursos pode geralmente melhorar o seu modelo e prevenir problemas comuns:
- Os dados contêm funcionalidades redundantes ou irrelevantes, que não fornecem mais informações do que as funcionalidades atualmente selecionadas.
- Os dados contêm funcionalidades irrelevantes que não fornecem nenhuma informação útil em qualquer contexto. A inclusão de campos irrelevantes não só aumenta o tempo necessário para treinar os dados, como também pode levar a maus resultados.
- Com alguns algoritmos, ter informação duplicada nos dados de treino pode levar a um fenómeno chamado multicollinearidade. Na multicollinearidade, a presença de duas variáveis altamente correlacionadas pode fazer com que os cálculos para outras variáveis se tornem muito menos precisos.
Dica
Alguns algoritmos de aprendizagem automática em Machine Learning Studio (clássico) também usam a seleção de recursos ou redução de dimensionalidade como parte do processo de treino. Quando utilizar estes aprendizes, pode ignorar o processo de seleção de funcionalidades e deixar que o algoritmo decida as melhores entradas.
Utilize a seleção de recursos numa experiência
A seleção de recursos é normalmente realizada quando está a explorar dados e a desenvolver um novo modelo. Tenha estas dicas em mente quando utilizar a seleção de funcionalidades:
- Ao testar, adicione a seleção de funcionalidades à sua experiência para gerar pontuações que informem a sua decisão de quais colunas utilizar.
- Remova a seleção de funcionalidades da experiência quando operacionalizar um modelo.
- Executar a seleção de recursos periodicamente para garantir que os dados e as melhores funcionalidades não foram alterados.
A seleção de recursos é diferente da engenharia de recursos, que se foca na criação de novas funcionalidades a partir dos dados existentes.
Recursos
- Para uma discussão sobre as diferentes formas de conceber funcionalidades ou selecionar as melhores características como parte do processo de ciência de dados, consulte a engenharia de recursos em ciência de dados.
- Para uma análise de seleção de recursos no processo de ciência de dados, consulte as funcionalidades do Filtro a partir dos seus dados - Seleção de recursos.
Métodos de seleção de recursos no Machine Learning Studio (clássico)
Os seguintes módulos de seleção de recursos são fornecidos no Machine Learning Studio (clássico).
Seleção de funcionalidades baseadas em filtro
Quando utilizar o módulo de seleção de recursos baseado em filtros , pode escolher entre métodos de seleção de funcionalidades bem conhecidos. O módulo produz tanto as estatísticas de seleção de recursos como o conjunto de dados filtrado.
A escolha de um método de seleção de filtros depende, em parte, do tipo de dados de entrada que tem.
Método | Entradas de recursos suportadas | Etiquetas suportadas |
---|---|---|
A correlação de Pearson | Colunas numéricas e lógicas apenas | Uma única coluna numérica ou lógica |
Pontuação de informação mútua | Todos os tipos de dados | Uma única coluna de qualquer tipo de dados |
Coeficiente de correlação de Kendall | Colunas numéricas e lógicas apenas | Uma única coluna numérica ou lógica Colunas devem ter valores que podem ser classificados |
Coeficiente de correlação de Spearman | Colunas numéricas e lógicas apenas | Uma única coluna numérica ou lógica |
Estatística chi-quadrada | Todos os tipos de dados | Uma única coluna de qualquer tipo de dados |
Pontuação de pescador | Colunas numéricas e lógicas apenas | Uma única coluna numérica ou lógica As colunas de cordas são atribuídas uma pontuação de 0 |
Seleção de recursos baseados em contagem | Todos os tipos de dados | Não é necessária uma coluna de etiquetas |
Análise Discriminante Linear de Fisher
A Análise Discriminante Linear é uma técnica de aprendizagem supervisionada que pode usar para classificar variáveis numéricas em conjunto com um único alvo categórico. O método é útil para a seleção de recursos porque identifica a combinação de características ou parâmetros que melhor separam os grupos.
Pode utilizar o módulo de Análise Discriminada Linear de Fisher para gerar um conjunto de pontuações para revisão, ou pode utilizar o conjunto de dados de substituição gerado pelo módulo para treino.
Importância da funcionalidade de permutação
Utilize o módulo De Importância da Característica Permutação para simular o efeito de qualquer conjunto de funcionalidades no seu conjunto de dados. O módulo calcula as pontuações de desempenho de um modelo baseado na baralhada aleatória dos valores de recurso.
As pontuações que o módulo devolve representam a potencial alteração na precisão de um modelo treinado se os valores mudarem. Pode utilizar as pontuações para determinar o efeito das variáveis individuais no modelo.
Algoritmos de aprendizagem automática que incorporam a seleção de recursos
Alguns algoritmos de aprendizagem automática em Machine Learning Studio (clássico) otimizam a seleção de recursos durante o treino. Também podem fornecer parâmetros que ajudam na seleção de recursos. Se está a usar um método que tem o seu próprio heurístico para escolher funcionalidades, muitas vezes é melhor confiar nesse heurístico em vez de pré-seleção de funcionalidades.
Estes algoritmos e métodos de seleção de recursos são utilizados internamente:
Modelos de árvores de decisão reforçadas para classificação e regressão
Nestes módulos, é criado um resumo de recurso internamente. Características que têm um peso de 0 não são usadas por nenhuma divisão de árvores. Quando visualizas o modelo mais bem treinado, podes olhar para cada uma das árvores. Se uma característica nunca for utilizada em nenhuma árvore, a característica é provavelmente um candidato à remoção. Para otimizar a seleção, também é uma boa ideia usar a varredura de parâmetros.
Modelos de regressão logística e modelos lineares
Os módulos para a regressão logística multiclasse e binária suportam a regularização L1 e L2. A regularização é uma forma de adicionar constrangimentos durante o treino para especificar manualmente um aspeto do modelo aprendido. Normalmente, a regularização é utilizada para evitar a sobremontagem. Machine Learning Studio (clássico) suporta a regularização para as normas L1 ou L2 do vetor de peso em algoritmos de classificação linear:
- A regularização L1 é útil se o objetivo é ter um modelo o mais escasso possível.
- A regularização L2 impede que qualquer coordenada única no vetor de peso cresça demasiado em magnitude. É útil se o objetivo é ter um modelo com pequenos pesos globais.
- A regressão logística regularizada pela L1 é mais agressiva na atribuição de um peso de 0 às características. É útil na identificação de funcionalidades que podem ser removidas.
Notas técnicas
Todos os módulos de seleção de recursos e métodos analíticos que suportam colunas numéricas e lógicas também suportam colunas de data e timepan. Estas colunas são tratadas como simples colunas numéricas em que cada valor é igual ao número de carrapatos.
Tarefas relacionadas
Os seguintes módulos não estão na categoria De Seleção de Recursos , mas pode usá-los para tarefas relacionadas. Os módulos podem ajudá-lo a reduzir a dimensionalidade dos seus dados ou encontrar correlações:
Se tiver um conjunto de dados que tenha muitas colunas, utilize o módulo principal de Análise de Componentes para detetar as colunas que contêm mais informações sobre os dados originais.
Este módulo está na categoria de Transformação de Dados , em Escala e Redução.
A caracterização baseada no conde é uma nova técnica que pode usar para determinar funcionalidades úteis usando grandes conjuntos de dados. Utilize estes módulos para analisar conjuntos de dados para encontrar as melhores funcionalidades, guardar um conjunto de funcionalidades para utilizar com novos dados ou atualizar um conjunto de funcionalidades existente.
Utilize este módulo para calcular um conjunto de coeficientes de correlação Pearson para cada par possível de variáveis no conjunto de dados de entrada. O coeficiente de correlação pearson, também chamado teste R de Pearson, é um valor estatístico que mede a relação linear entre duas variáveis.
Este módulo está na categoria Funções Estatísticas .
Lista de módulos
A categoria de Seleção de Recursos inclui estes módulos:
- Seleção de recursos baseados em filtro: Identifica as funcionalidades num conjunto de dados com maior potência preditiva.
- Análise Discriminante Linear de Fisher: Identifica a combinação linear de variáveis de características que podem melhor agrupar dados em classes separadas.
- Importância da característica da permutação: Calcula a permutação característica de pontuações de variações de características para um modelo treinado e conjunto de dados de teste.