Importância da funcionalidade de permutação

Este artigo descreve como utilizar o componente Permutation Feature Importance no estruturador do Azure Machine Learning para calcular um conjunto de classificações de importância de funcionalidades para o conjunto de dados. Utiliza estas pontuações para o ajudar a determinar as melhores funcionalidades a utilizar num modelo.

Neste componente, os valores das funcionalidades são aleatoriamente baralhados, uma coluna de cada vez. O desempenho do modelo é medido antes e depois. Pode escolher uma das métricas padrão para medir o desempenho.

As pontuações que o componente devolve representam a alteração no desempenho de um modelo preparado, após a permutação. Normalmente, as funcionalidades importantes são mais sensíveis ao processo de confusão, pelo que resultarão em classificações de maior importância.

Este artigo fornece uma descrição geral da funcionalidade de permutação, da sua base teórica e das suas aplicações no machine learning: Permutation Feature Importance.

Como utilizar a Importância da Funcionalidade de Permutação

Gerar um conjunto de classificações de funcionalidades requer que tenha um modelo já preparado, bem como um conjunto de dados de teste.

  1. Adicione o componente Permutation Feature Importance ao pipeline. Pode encontrar este componente na categoria Seleção de Funcionalidades .

  2. Ligue um modelo preparado à entrada esquerda. O modelo tem de ser um modelo de regressão ou um modelo de classificação.

  3. Na entrada à direita, ligue um conjunto de dados. De preferência, escolha uma que seja diferente do conjunto de dados que utilizou para preparar o modelo. Este conjunto de dados é utilizado para classificação com base no modelo preparado. Também é utilizado para avaliar o modelo depois de os valores das funcionalidades terem sido alterados.

  4. Para Sementes aleatórias, introduza um valor a utilizar como semente para aleatoriedade. Se especificar 0 (a predefinição), é gerado um número com base no relógio do sistema.

    Um valor de seed é opcional, mas deve fornecer um valor se quiser reproduzir-se em execuções do mesmo pipeline.

  5. Para Métrica para medir o desempenho, selecione uma única métrica a utilizar quando estiver a calcular a qualidade do modelo após a permutação.

    O estruturador do Azure Machine Learning suporta as seguintes métricas, consoante esteja a avaliar um modelo de classificação ou regressão:

    • Classificação

      Precisão, Precisão, Revocação

    • Regressão

      Precisão, Recolha, Erro Absoluto Médio, Erro Quadrado Médio de Raiz, Erro Absoluto Relativo, Erro Quadrado Relativo, Coeficiente de Determinação

    Para obter uma descrição mais detalhada destas métricas de avaliação e como são calculadas, veja Avaliar Modelo.

  6. Submeta o pipeline.

  7. O componente produz uma lista de colunas de funcionalidades e as pontuações associadas às mesmas. A lista está classificada por ordem descendente das classificações.

Notas técnicas

A Importância da Funcionalidade de Permutação funciona ao alterar aleatoriamente os valores de cada coluna de funcionalidade, uma coluna de cada vez. Em seguida, avalia o modelo.

As classificações fornecidas pelo componente são muitas vezes diferentes das que obtém da Seleção de Funcionalidades Baseadas em Filtros. A Seleção de Funcionalidades Baseada em Filtros calcula as pontuações antes de um modelo ser criado.

A razão para a diferença é que a Importância da Funcionalidade de Permutação não mede a associação entre uma funcionalidade e um valor de destino. Em vez disso, captura a influência que cada funcionalidade tem nas predições do modelo.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.