Introduzir o componente Dados Manualmente

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize o componente Introduzir Dados Manualmente para criar um pequeno conjunto de dados ao escrever valores. O conjunto de dados pode ter múltiplas colunas.

Este componente pode ser útil em cenários como:

  • Gerar um pequeno conjunto de valores para testes.
  • Criar uma pequena lista de etiquetas.
  • Escrever uma lista de nomes de colunas para inserir num conjunto de dados.

Criar um conjunto de dados

  1. Adicione o componente Enter Data Manually ao pipeline. Pode encontrar este componente na categoria Entrada e Saída de Dados no Azure Machine Learning.

  2. Para DataFormat, selecione uma das seguintes opções. Estas opções determinam como os dados fornecidos devem ser analisados. Os requisitos para cada formato diferem muito, por isso certifique-se de que lê os tópicos relacionados.

    • ARFF: formato de ficheiro attribute-relation utilizado pela Weka.
    • CSV: formato de valores separados por vírgulas. Para obter mais informações, veja Converter em CSV.
    • SVMLight: formato utilizado pelo Vowpal Wabbit e outras arquiteturas de machine learning.
    • TSV: formato de valores separados por tabulações.

    Se escolher um formato e não fornecer dados que cumpram as especificações de formato, ocorre um erro de runtime.

  3. Clique dentro da caixa de texto Dados para começar a introduzir dados. Os seguintes formatos requerem especial atenção:

    • CSV: para criar múltiplas colunas, cole em texto separado por vírgulas ou escreva múltiplas colunas com vírgulas entre campos.

      Se selecionar a opção HasHeader , pode utilizar a primeira linha de valores como cabeçalho de coluna.

      Se desselecionar esta opção, são utilizados os nomes das colunas (Col1, Col2, etc.). Pode adicionar ou alterar nomes de colunas mais tarde com Editar Metadados.

    • TSV: para criar múltiplas colunas, cole em texto separado por separador ou escreva múltiplas colunas utilizando separadores entre campos.

      Se selecionar a opção HasHeader , pode utilizar a primeira linha de valores como cabeçalho de coluna.

      Se desselecionar esta opção, são utilizados os nomes das colunas (Col1, Col2, etc.). Pode adicionar ou alterar nomes de colunas mais tarde com Editar Metadados.

    • ARFF: cole um ficheiro de formato ARFF existente. Se estiver a escrever valores diretamente, certifique-se de que adiciona o cabeçalho opcional e os campos de atributos necessários no início dos dados.

      Por exemplo, as linhas de cabeçalho e atributo seguintes podem ser adicionadas a uma lista simples. O cabeçalho da coluna seria SampleText. Tenha em atenção que o Tipo de cadeia não é suportado.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: escreva ou cole valores com o formato SVMLight.

      Por exemplo, o exemplo seguinte representa as primeiras linhas do conjunto de dados Doação de Sangue, no formato SVMLight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Quando executa o componente Introduzir Dados Manualmente , estas linhas são convertidas num conjunto de dados de colunas e valores de índice da seguinte forma:

      Col1 Col2 Col3 Col4 Etiquetas
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Selecione a tecla Enter após cada linha para iniciar uma nova linha.

    Se selecionar Introduzir várias vezes para adicionar várias linhas vazias à direita, as linhas vazias serão removidas ou cortadas.

    Se criar linhas com valores em falta, pode sempre filtre-as mais tarde.

  5. Ligue a porta de saída a outros componentes e execute o pipeline.

    Para ver o conjunto de dados, clique com o botão direito do rato no componente e selecione Visualizar.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.