Editar componente de Metadados

Este artigo descreve um componente incluído no estruturador do Azure Machine Learning.

Utilize o componente Editar Metadados para alterar metadados associados a colunas num conjunto de dados. O valor e o tipo de dados do conjunto de dados serão alterados após a utilização do componente Editar Metadados.

As alterações típicas de metadados podem incluir:

  • Tratar colunas booleanas ou numéricas como valores categóricos.

  • Indicando que coluna contém a etiqueta de classe ou contém os valores que pretende categorizar ou prever.

  • Marcar colunas como funcionalidades.

  • Alterar valores de data/hora para valores numéricos ou vice-versa.

  • Mudar o nome das colunas.

Utilize Editar Metadados sempre que precisar de modificar a definição de uma coluna, normalmente para cumprir os requisitos de um componente a jusante. Por exemplo, alguns componentes só funcionam com tipos de dados específicos ou necessitam de sinalizadores nas colunas, como IsFeature ou IsCategorical.

Depois de executar a operação necessária, pode repor os metadados para o estado original.

Configurar Editar Metadados

  1. No estruturador do Azure Machine Learning, adicione o componente Editar Metadados ao pipeline e ligue o conjunto de dados que pretende atualizar. Pode encontrar o componente na categoria Transformação de Dados .

  2. Clique em Editar coluna no painel direito do componente e escolha a coluna ou conjunto de colunas com que pretende trabalhar. Pode escolher colunas individualmente por nome ou índice ou pode escolher um grupo de colunas por tipo.

  3. Selecione a opção Tipo de dados se precisar de atribuir um tipo de dados diferente às colunas selecionadas. Poderá ter de alterar o tipo de dados para determinadas operações. Por exemplo, se o conjunto de dados de origem tiver números processados como texto, tem de alterá-los para um tipo de dados numérico antes de utilizar operações matemáticas.

    • Os tipos de dados suportados são Cadeia, Número Inteiro, Duplo, Booleano e DateTime.

    • Se selecionar várias colunas, tem de aplicar as alterações de metadados a todas as colunas selecionadas. Por exemplo, digamos que escolhe duas ou três colunas numéricas. Pode alterá-los todos para um tipo de dados de cadeia e mudar o nome dos mesmos numa única operação. No entanto, não pode alterar uma coluna para um tipo de dados de cadeia e outra coluna de um flutuante para um número inteiro.

    • Se não especificar um novo tipo de dados, os metadados da coluna não serão alterados.

    • O tipo de coluna e os valores serão alterados depois de executar a operação Editar Metadados. Pode recuperar o tipo de dados original em qualquer altura ao utilizar Editar Metadados para repor o tipo de dados da coluna.

    Nota

    O Formato DateTime segue o formato datetime incorporado do Python.
    Se alterar qualquer tipo de número para o tipo DateTime , deixe o campo Formato DateTime em branco. Atualmente, não é possível especificar o formato de dados de destino.

  4. Selecione a opção Categórica para especificar que os valores nas colunas selecionadas devem ser tratados como categorias.

    Por exemplo, pode ter uma coluna que contém os números 0, 1 e 2, mas sabe que os números realmente significam "Fumador", "Não fumador" e "Desconhecido". Nesse caso, ao sinalizar a coluna como categórica, garante que os valores são utilizados apenas para agrupar dados e não em cálculos numéricos.

  5. Utilize a opção Campos se quiser alterar a forma como o Azure Machine Learning utiliza os dados num modelo.

    • Funcionalidade: utilize esta opção para sinalizar uma coluna como uma funcionalidade em componentes que operam apenas em colunas de funcionalidades. Por predefinição, todas as colunas são inicialmente tratadas como funcionalidades.

    • Etiqueta: utilize esta opção para marcar a etiqueta, que também é conhecida como atributo previsível ou variável de destino. Muitos componentes exigem que esteja presente exatamente uma coluna de etiqueta no conjunto de dados.

      Em muitos casos, o Azure Machine Learning pode inferir que uma coluna contém uma etiqueta de classe. Ao definir estes metadados, pode garantir que a coluna está identificada corretamente. Definir esta opção não altera os valores de dados. Altera apenas a forma como alguns algoritmos de machine learning lidam com os dados.

    Dica

    Tem dados que não se enquadram nestas categorias? Por exemplo, o conjunto de dados pode conter valores como identificadores exclusivos que não são úteis como variáveis. Por vezes, esses IDs podem causar problemas quando utilizados num modelo.

    Felizmente, o Azure Machine Learning mantém todos os seus dados, para que não tenha de eliminar essas colunas do conjunto de dados. Quando precisar de efetuar operações em alguns conjuntos especiais de colunas, remova temporariamente todas as outras colunas com o componente Selecionar Colunas no Conjunto de Dados . Posteriormente, pode intercalar as colunas novamente no conjunto de dados com o componente Adicionar Colunas .

  6. Utilize as seguintes opções para limpar seleções anteriores e restaurar metadados para os valores predefinidos.

    • Limpar funcionalidade: utilize esta opção para remover o sinalizador de funcionalidade.

      Todas as colunas são inicialmente tratadas como funcionalidades. Para os componentes que executam operações matemáticas, poderá ter de utilizar esta opção para impedir que as colunas numéricas sejam tratadas como variáveis.

    • Limpar etiqueta: utilize esta opção para remover os metadados de etiqueta da coluna especificada.

    • Pontuação clara: utilize esta opção para remover os metadados de classificação da coluna especificada.

      Atualmente, não pode marcar explicitamente uma coluna como uma pontuação no Azure Machine Learning. No entanto, algumas operações resultam na sinalização interna de uma coluna como uma pontuação. Além disso, um componente R personalizado pode produzir valores de classificação.

  7. Para Novos nomes de colunas, introduza o novo nome da coluna ou colunas selecionadas.

    • Os nomes de colunas só podem utilizar carateres suportados pela codificação UTF-8. Não são permitidas cadeias vazias, nulos ou nomes que consistam inteiramente em espaços.

    • Para mudar o nome de várias colunas, introduza os nomes como uma lista separada por vírgulas por ordem dos índices de colunas.

    • Todas as colunas selecionadas têm de ter o nome mudado. Não pode omitir ou ignorar colunas.

  8. Submeta o pipeline.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.