Converter em Valores Indicadores

Este artigo descreve um componente do designer do Azure Machine Learning.

Use o componente Converter em Valores de Indicador no designer do Aprendizado de Máquina do Azure para converter colunas que contêm valores categóricos em uma série de colunas de indicadores binários.

A operação Converter em Valores de Indicador permite a conversão de dados categóricos em valores de indicadores representados por valores binários ou múltiplos. Esse processo é uma das etapas de pré-processamento de dados frequentemente usadas para modelos de classificação.

Este componente também produz uma definição da transformação usada para converter em valores de indicador. Você pode reutilizar essa transformação em outros conjuntos de dados que tenham o mesmo esquema, usando o componente Aplicar transformação .

Como configurar Converter em Valores de Indicador

  1. Encontre a opção Converter em valores de indicador e arraste-a para o rascunho do pipeline. Você pode encontrar esse componente na categoria Transformação de dados.

    Nota

    Você pode usar o componente Editar metadados antes do componente Converter em valores do indicador para marcar a(s) coluna(s) de destino como categórica.

  2. Conecte o componente Converter em Valores do Indicador ao conjunto de dados que contém as colunas que você deseja converter.

  3. Selecione Editar coluna para escolher uma ou mais colunas categóricas.

  4. Selecione a opção Substituir colunas categóricas se quiser gerar apenas as novas colunas booleanas. Por padrão, essa opção está desativada.

    Gorjeta

    Se você escolher a opção para substituir, a coluna de origem não será realmente excluída ou modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída, e a coluna de origem permanece disponível no espaço de trabalho. Se precisar ver os dados originais, você pode usar o componente Adicionar colunas a qualquer momento para adicionar a coluna de origem novamente.

  5. Envie o pipeline.

Resultados

Suponha que você tenha uma coluna com pontuações que indicam se um servidor tem alta, média ou baixa probabilidade de falha.

ID do servidor Pontuação de falha
10301 Baixo
10302 Médio
10303 Alto

Quando você aplica Converter em valores de indicador, o designer converte uma única coluna de rótulos em várias colunas contendo valores booleanos:

ID do servidor Pontuação de falha - Baixa Pontuação de falha - Média Pontuação de falha - Alta
10301 1 0 0
10302 0 1 0
10303 0 0 1

Veja como funciona a conversão:

  • Na coluna Pontuação de falha que descreve o risco, há apenas três valores possíveis (Alto, Médio e Baixo) e nenhum valor ausente. Assim, exatamente três novas colunas são criadas.

  • As novas colunas indicadoras são nomeadas com base nos cabeçalhos e valores da coluna de origem, usando este padrão: <coluna> de origem- <valor> de dados.

  • Deve haver um 1 em exatamente uma coluna de indicador e 0 em todas as outras colunas de indicadores, uma vez que cada servidor pode ter apenas uma classificação de risco.

Agora você pode usar as três colunas de indicadores como recursos em um modelo de aprendizado de máquina.

O componente retorna duas saídas:

  • Conjunto de dados de resultados: um conjunto de dados com colunas de valores de indicadores convertidas. As colunas não selecionadas para limpeza também são "passadas".
  • Transformação de valores de indicador: uma transformação de dados usada para conversão em valores de indicador, que pode ser salva em seu espaço de trabalho e aplicada a novos dados posteriormente.

Aplicar uma operação de valores de indicador salvos a novos dados

Se você precisar repetir operações de valores de indicadores com frequência, poderá salvar suas etapas de manipulação de dados como uma transformação para reutilizá-las com o mesmo conjunto de dados. Isso é útil se você precisar reimportar com frequência e, em seguida, limpar dados que tenham o mesmo esquema.

  1. Adicione o componente Aplicar transformação ao seu pipeline.

  2. Adicione o conjunto de dados que deseja limpar e conecte o conjunto de dados à porta de entrada direita.

  3. Expanda o grupo Transformação de Dados no painel esquerdo do designer. Localize a transformação salva e arraste-a para o pipeline.

  4. Conecte a transformação salva à porta de entrada esquerda de Apply Transformation.

    Quando você aplica uma transformação salva, não pode selecionar quais colunas transformar. Isso ocorre porque a transformação foi definida e se aplica automaticamente aos tipos de dados especificados na operação original.

  5. Envie o pipeline.

Notas técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

  • Apenas as colunas marcadas como categóricas podem ser convertidas em colunas indicadoras. Se vir o seguinte erro, é provável que uma das colunas selecionadas não seja categórica:

    Erro 0056: Coluna com nome <nome> da coluna não está em uma categoria permitida.

    Por padrão, a maioria das colunas de cadeia de caracteres são tratadas como recursos de cadeia de caracteres, portanto, você deve marcá-las explicitamente como categóricas usando Editar Metadados.

  • Não há limite para o número de colunas que você pode converter em colunas indicadoras. No entanto, como cada coluna de valores pode gerar várias colunas de indicadores, convém converter e revisar apenas algumas colunas de cada vez.

  • Se a coluna contiver valores ausentes, uma coluna indicadora separada será criada para a categoria ausente, com este nome: <coluna> de origem- Ausente

  • Se a coluna que você converte em valores de indicador contiver números, eles deverão ser marcados como categóricos como qualquer outra coluna de recurso. Depois de ter feito isso, os números são tratados como valores discretos. Por exemplo, se você tiver uma coluna numérica com valores MPG variando de 25 a 30, uma nova coluna indicadora será criada para cada valor discreto:

    Criar Autoestrada mpg -25 Autoestrada mpg -26 Autoestrada mpg -27 Autoestrada mpg -28 Autoestrada mpg -29 Autoestrada mpg -30
    Contoso Carros 0 0 0 0 0 1
  • Para evitar adicionar muitas dimensões ao seu conjunto de dados. Recomendamos que você primeiro verifique o número de valores na coluna e compartimente ou quantifique os dados adequadamente.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.