Converter em valores de indicador

Este artigo descreve o componente do Azure Machine Learning Designer.

Use o componente Converter em Valores de Indicador no Azure Machine Learning Designer para converter colunas que contêm valores categóricos em uma série de colunas de indicador binário.

A operação Converter em Valores de Indicador permite a conversão de dados categóricos em valores de indicador representados por valores binários ou múltiplos. Esse processo é uma das etapas de pré-processamento de dados frequentemente utilizadas para modelos de classificação.

Esse componente também gera uma definição da transformação usada para Converter em Valores de Indicador. Você pode reutilizar essa transformação em outros conjuntos de dados que têm o mesmo esquema, usando o componente Aplicar Transformação.

Como configurar Converter para Valores de Indicador

  1. Localize Conversão para Valores de Indicador e arraste para o rascunho do seu pipeline. Você pode encontrar esse componente na categoria Transformação de Dados.

    Observação

    Você pode usar o componente Editar Metadados antes do componente Converter em Valores de Indicador para marcar as colunas de destino como categóricas.

  2. Conecte o componente Converter em Valores de Indicador ao conjunto de dados que contém as colunas que você deseja converter.

  3. Selecione Editar coluna para escolher uma ou mais colunas categóricas.

  4. Selecione a opção Substituir colunas categóricas se você quiser produzir apenas as novas colunas Boolianas. Por padrão, essa opção é desativada.

    Dica

    Se você escolher a opção de substituir, a coluna de origem não será realmente excluída nem modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída e a coluna de origem permanece disponível no workspace. Se você precisar ver os dados originais, poderá usar o componente Adicionar Colunas a qualquer momento para adicionar a coluna de origem novamente.

  5. Enviar o pipeline.

Resultados

Suponha que você tenha uma coluna com pontuações que indicam se um servidor tem uma probabilidade alta, média ou baixa de falha.

ID de servidor Pontuação de falha
10301 Baixo
10302 Médio
10303 Alto

Quando você aplica Converter a Valores de Indicador, o designer converte uma única coluna de rótulos em várias colunas contendo valores Boolianos:

ID de servidor Pontuação de falha – Baixo Pontuação de falha – Médio Pontuação de falha – Alto
10301 1 0 0
10302 0 1 0
10303 0 0 1

Veja como a conversão funciona:

  • Na coluna Pontuação de falha que descreve o risco, há apenas três valores possíveis (Alto, Médio e Baixo) e nenhum valor ausente. Portanto, são criadas exatamente três novas colunas.

  • As novas colunas de indicador são nomeadas com base nos cabeçalhos da coluna e nos valores da coluna de origem, usando este padrão: <coluna de origem>- <valor de dados>.

  • Deve haver uma coluna de indicador 1 exatamente na coluna do indicador um e 0 em todas as outras colunas de indicador, já que cada servidor pode ter apenas uma classificação de risco.

Agora você pode usar as três colunas do indicador como recursos em um modelo de machine learning.

O componente retorna duas saídas:

  • Conjunto de dados de resultados: um conjunto de dados com colunas de valores de indicador convertidos. As colunas não selecionadas para limpeza também são "transmitidas".
  • Transformação de valores de indicador: uma transformação de dados usada para converter para valores de indicador, que pode ser salva em seu workspace e aplicada a novos dados posteriormente.

Aplicar uma operação de valores de indicador salvos a novos dados

Se você precisar repetir as operações de valores de indicador com frequência, poderá salvar as etapas de manipulação de dados como uma transformação para reutilizá-la com o mesmo conjunto de dados. Isso será útil se você precisar reimportar com frequência e limpar os dados que tiverem o mesmo esquema.

  1. Adicione o componente Aplicar Transformação ao seu pipeline.

  2. Adicione o conjunto de dados que você deseja limpar e conecte o conjunto de dados à porta de entrada direita.

  3. Expanda o grupo Transformação de Dados no painel esquerdo do designer. Localize a transformação salva e arraste para o pipeline.

  4. Conecte a transformação salva à porta de entrada esquerda de Aplicar Transformação.

    Ao aplicar uma transformação salva, você não poderá selecionar quais colunas transformar. Isso ocorre porque a transformação foi definida e se aplica automaticamente aos tipos de dados especificados na operação original.

  5. Envie o pipeline.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

  • Somente as colunas que são marcadas como categóricas podem ser convertidas em colunas de indicador. Se você vir o erro a seguir, será provável que uma das colunas selecionadas não seja categórica:

    Erro 0056: A coluna com o nome <nome da coluna> não é uma categoria permitida.

    Por padrão, a maioria das colunas de cadeia de caracteres é tratada como recursos da cadeia de caracteres. Portanto, você deve marcá-las explicitamente como categóricas usando Editar Metadados.

  • Não há limite para o número de colunas que você pode converter em colunas de indicador. No entanto, como cada coluna de valores pode produzir várias colunas de indicador, talvez você queira converter e analisar apenas algumas colunas de cada vez.

  • Se a coluna tiver valores ausentes, uma coluna de indicador separada será criada para a categoria ausente, com este nome: <coluna de origem>- Ausente

  • Se a coluna que você converter em valores de indicador tiver números, elas deverão ser marcadas como categóricas como qualquer outra coluna de recurso. Depois disso, os números serão tratados como valores discretos. Por exemplo, se você tiver uma coluna numérica com valores MPG variando de 25 a 30, uma nova coluna de indicador será criada para cada valor discreto:

    Faça Rodovia mpg – 25 Rodovia mpg – 26 Rodovia mpg – 27 Rodovia mpg – 28 Rodovia mpg – 29 Rodovia mpg – 30
    Carros da Contoso 0 0 0 0 0 1
  • Para evitar a adição de muitas dimensões em seu conjunto de dados. É recomendável primeiro verificar o número de valores na coluna e guardar ou quantificar os dados adequadamente.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.