Componente Editar Metadados

Este artigo descreve o componente incluído no designer do Azure Machine Learning.

Use o componente Editar Metadados para alterar os metadados associados às colunas de um conjunto de dados. O valor e o tipo de dados do conjunto de dados mudarão após o uso do componente Editar Metadados.

As alterações de metadados típicas podem incluir:

  • Tratar colunas boolianas ou numéricas como valores categóricos.

  • Indicar qual coluna contém a etiqueta classe ou os valores que você deseja categorizar ou prever.

  • Marcar colunas como recursos.

  • Mudar os valores de data/hora para valores numéricos ou vice-versa.

  • Renomear colunas.

Use o módulo Editar Metadados sempre que você precisar modificar a definição de uma coluna, geralmente para atender aos requisitos de um componente downstream. Por exemplo, alguns componentes só funcionam com tipos de dados específicos ou exigem sinalizadores nas colunas, como IsFeature ou IsCategorical.

Depois de realizar a operação necessária, você pode redefinir os metadados para o estado original.

Configurar Editar Metadados

  1. No designer do Azure Machine Learning, adicione o componente Editar Metadados ao seu pipeline e conecte o conjunto de dados que você deseja atualizar. Você pode encontrar o componente na categoria Transformação de Dados.

  2. No painel direito do componente, clique em Editar coluna e escolha a coluna ou o conjunto de colunas com que você deseja trabalhar. Você pode escolher colunas individualmente por nome ou índice ou pode escolher um grupo de colunas por tipo.

  3. Escolha a opção Tipo de dados se você precisa atribuir um tipo de dados diferente às colunas selecionadas. Talvez você precise mudar o tipo de dados de determinadas operações. Por exemplo, se o conjunto de dados de origem tiver números tratados como texto, você deverá alterá-los para um tipo de dados numérico antes de usar operações matemáticas.

    • Os tipos de dados compatíveis são cadeia de caracteres, inteiro, duplo, booliano e DateTime.

    • Se você escolher várias colunas, deverá aplicar as mudanças de metadados a todas as colunas selecionadas. Por exemplo, digamos que você escolha duas ou três colunas numéricas. Você pode mudar todas elas para um tipo de dados de cadeia de caracteres e renomeá-las em uma só operação. No entanto, não é possível alterar uma coluna para um tipo de dados de cadeia de caracteres e outra coluna de um float para um inteiro.

    • Se você não especificar um novo tipo de dados, os metadados da coluna permanecerão inalterados.

    • O tipo de coluna e os valores mudarão depois que você executar a operação Editar Metadados. Você pode recuperar o tipo de dados original a qualquer momento usando Editar Metadados para redefinir o tipo de dados da coluna.

    Observação

    O Formato DateTime segue o formato DateTime interno do Python.
    Se você alterar qualquer tipo de número para o tipo DateTime, deixe o campo Formato DateTime em branco. No momento, não é possível especificar o formato de dados de destino.

  4. Escolha a opção Categórica para especificar que os valores das colunas selecionadas devem ser tratados como categorias.

    Por exemplo, você pode ter uma coluna que contém os números 0, 1 e 2, mas sabe que os números na verdade significam "Fumante", "Não fumante" e "Desconhecido". Nesse caso, sinalizando a coluna como categórica, você garante que os valores sejam usados apenas para agrupar dados e não em cálculos numéricos.

  5. Use a opção Campos se você quiser mudar a forma como o Azure Machine Learning usa os dados em um modelo.

    • Recurso: use essa opção para sinalizar uma coluna como um recurso em componentes que operam somente em colunas de recursos. Por padrão, todas as colunas são inicialmente tratadas como recursos.

    • Etiqueta: use essa opção para marcar a etiqueta, que também é conhecida como atributo previsível ou variável de destino. Muitos componentes exigem que exatamente uma coluna de etiqueta esteja presente no conjunto de dados.

      Em muitos casos, o Azure Machine Learning pode inferir que uma coluna contém uma etiqueta de classe. Ao configurar esses metadados, você pode garantir que a coluna seja identificada corretamente. Configurar essa opção não altera os valores de dados. Ela muda apenas a forma como alguns algoritmos de machine learning processam os dados.

    Dica

    Você tem dados que não se enquadram nessas categorias? Por exemplo, o seu conjunto de dados pode conter valores como identificadores exclusivos que não são úteis como variáveis. Às vezes, essas IDs podem causar problemas quando usadas em um modelo.

    Felizmente, o Azure Machine Learning mantém todos os seus dados e, portanto, você não precisa excluir essas colunas do conjunto de dados. Quando você precisar executar operações em um conjunto especial de colunas, bastará remover todas as outras colunas temporariamente usando o componente Escolher Colunas do Conjunto de Dados. Posteriormente, você poderá mesclar as colunas de volta ao conjunto de dados usando o componente Adicionar Colunas.

  6. Use as opções a seguir para desmarcar as seleções anteriores e restaurar os metadados para os valores padrão.

    • Desmarcar recurso: use essa opção para remover o sinalizador de recurso.

      Inicialmente, todas as colunas são tratadas como recursos. Para os componentes que executam operações matemáticas, talvez seja necessário usar essa opção para evitar que colunas numéricas sejam tratadas como variáveis.

    • Desmarcar etiqueta: use essa opção para remover os metadados de etiqueta da coluna especificada.

    • Desmarcar pontuação: use essa opção para remover os metadados de pontuação da coluna especificada.

      No momento, não é possível marcar uma coluna explicitamente como uma pontuação no Azure Machine Learning. No entanto, algumas operações fazem com que uma coluna seja sinalizada como uma pontuação internamente. Além disso, um componente R personalizado pode gerar valores de pontuação.

  7. Para Novos nomes de coluna, insira o novo nome da coluna ou das colunas selecionadas.

    • Os nomes de coluna só podem usar caracteres compatíveis com a codificação UTF-8. Não é permitido usar cadeias de caracteres em branco, nulos ou nomes que consistem inteiramente de espaços.

    • Para renomear várias colunas, insira os nomes como uma lista separada por vírgulas, na ordem dos índices de coluna.

    • É necessário renomear todas as colunas selecionadas. Você não pode omitir nem ignorar colunas.

  8. Envie o pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.