Converter em Conjunto de Dados

Este artigo descreve como utilizar o componente Converter em Conjunto de Dados no estruturador do Azure Machine Learning para converter quaisquer dados para um pipeline no formato interno do estruturador.

A conversão não é necessária na maioria dos casos. O Azure Machine Learning converte implicitamente dados no formato de conjunto de dados nativo quando qualquer operação é executada nos dados.

Recomendamos que guarde dados no formato do conjunto de dados se tiver efetuado algum tipo de normalização ou limpeza num conjunto de dados e quiser garantir que as alterações são utilizadas noutros pipelines.

Nota

Converter em Conjunto de dados altera apenas o formato dos dados. Não guarda uma nova cópia dos dados na área de trabalho. Para guardar o conjunto de dados, faça duplo clique na porta de saída, selecione Guardar como conjunto de dados e introduza um novo nome.

Como utilizar Converter em Conjunto de Dados

Recomendamos que utilize o componente Editar Metadados para preparar o conjunto de dados antes de utilizar Converter em Conjunto de Dados. Pode adicionar ou alterar nomes de colunas, ajustar tipos de dados e fazer outras alterações conforme necessário.

  1. Adicione o componente Converter em Conjunto de Dados ao pipeline. Pode encontrar este componente na categoria Transformação de dados no estruturador.

  2. Ligue-o a qualquer componente que produza um conjunto de dados.

    Desde que os dados sejam tabulares, pode convertê-lo num conjunto de dados. Isto inclui dados carregados através da Importação de Dados, dados criados através da introdução manual de dados ou conjuntos de dados transformados através de Aplicar Transformação.

  3. Na lista pendente Ação , indique se pretende fazer alguma limpeza nos dados antes de guardar o conjunto de dados:

    • Nenhum: utilize os dados tal como estão.

    • SetMissingValue: defina um valor específico para um valor em falta no conjunto de dados. O marcador de posição predefinido é o caráter de ponto de interrogação (?), mas pode utilizar a opção Valor em falta personalizado para introduzir um valor diferente. Por exemplo, se introduzir Taxi para Valor em falta personalizado, todas as instâncias de Taxi no conjunto de dados serão alteradas para o valor em falta.

    • ReplaceValues: utilize esta opção para especificar um único valor exato para ser substituído por qualquer outro valor exato. Pode substituir valores em falta ou valores personalizados ao definir o método Substituir :

      • Em falta: selecione esta opção para substituir os valores em falta no conjunto de dados de entrada. Em Novo Valor, introduza o valor pelo qual substituir os valores em falta.
      • Personalizado: selecione esta opção para substituir valores personalizados no conjunto de dados de entrada. Para Valor personalizado, introduza o valor que pretende localizar. Por exemplo, se os seus dados contiverem a cadeia obs utilizada como marcador de posição para valores em falta, introduza obs. Para Novo valor, introduza o novo valor pelo qual substituir a cadeia original.

    Tenha em atenção que a operação ReplaceValues aplica-se apenas a correspondências exatas. Por exemplo, estas cadeias de carateres não seriam afetadas: obs., obsolete.

  4. Submeta o pipeline.

Resultados

  • Para guardar o conjunto de dados resultante com um novo nome, selecione no ícone Registar conjunto de dados no separador Saídas no painel direito do componente.

Notas técnicas

  • Qualquer componente que utilize um conjunto de dados como entrada também pode obter dados no ficheiro CSV ou no ficheiro TSV. Antes de qualquer código de componente ser executado, as entradas são pré-processadas. O pré-processamento é equivalente à execução do componente Converter em Conjunto de Dados na entrada.

  • Não pode converter do formato SVMLight num conjunto de dados.

  • Ao especificar uma operação de substituição personalizada, a operação de pesquisa e substituição aplica-se aos valores completos. Não são permitidas correspondências parciais. Por exemplo, pode substituir um 3 por -1 ou por 33, mas não pode substituir um 3 num número de dois dígitos, como 35.

  • Para operações de substituição personalizadas, a substituição falhará automaticamente se utilizar como substituição qualquer caráter que não esteja em conformidade com o tipo de dados atual da coluna.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.