Componente Importar Dados

Este artigo descreve o componente no Azure Machine Learning Designer.

Use este componente para carregar dados em um pipeline de aprendizado de máquina de serviços de dados em nuvem existentes.

Observação

Toda a funcionalidade fornecida por esse componente pode ser feita pelo armazenamento de dados e conjuntos de dados na página de entrada do workspace. É recomendável que você use o armazenamento de dados e o conjunto de dados, que incluem recursos adicionais, como o monitoramento de dados. Para obter mais informações, confira o artigo Como acessar dados e Como registrar conjuntos de dados. Depois de registrar um conjunto de dados, você pode encontrá-lo na categoria Conjuntos de Dados ->Meus Conjuntos de Dados na interface do designer. Este componente é reservado para usuários do Studio (clássico) para uma experiência familiar.

O componente Importar Dados dá suporte à leitura de dados das seguintes fontes:

  • URL via HTTP
  • Armazenamentos em nuvem do Azure por meio de armazenamentos de dados
    • Contêiner de Blobs do Azure
    • Compartilhamento de arquivos do Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Banco de Dados SQL do Azure
    • PostgreSQL do Azure

Antes de usar o armazenamento em nuvem, primeiro, você precisa registrar um armazenamento de dados no workspace do Azure Machine Learning. Para obter mais informações, confira Como acessar dados.

Depois de definir os dados desejados e conectar-se à fonte, Importar Dados infere o tipo de dados de cada coluna com base nos valores que ela contém e carrega os dados em seu pipeline do designer. A saída de Importar Dados é um conjunto de dados que pode ser usado com qualquer pipeline de designer.

Se os dados de origem forem alterados, você poderá atualizar o conjunto de dados e adicionar novos dados executando Importar Dados novamente.

Aviso

Se o workspace estiver em uma rede virtual, você precisará configurar seus armazenamentos de dados para usar os recursos de visualização de dados do designer. Para obter mais informações sobre como usar armazenamentos de dados e conjuntos de dados em uma rede virtual, confira Usar o Estúdio do Azure Machine Learning em uma rede virtual do Azure.

Como configurar Importar Dados

  1. Adicione o componente Importar Dados ao pipeline. Você pode encontrar esse componente na categoria Entrada e Saída de Dados do designer.

  2. Selecione o componente para abrir o painel direito.

  3. Selecione Fonte de dados e escolha o tipo da fonte de dados. Pode ser HTTP ou armazenamento de dados.

    Se você escolher o armazenamento de dados, selecione os armazenamentos de dados existentes que já estão registrados no workspace do Azure Machine Learning ou crie um armazenamento de dados. Em seguida, defina o caminho dos dados a serem importados no armazenamento de dados. Acesse o caminho com facilidade selecionando Procurar Caminho.

    Captura de tela que mostra o link Procurar caminho, que abre a caixa de diálogo Seleção de caminho.

    Observação

    O componente Importar Dados se destina somente a dados Tabulares. Se você quiser importar vários arquivos de dados de tabela de uma vez, isso exigirá as seguintes condições para que não ocorram erros:

    1. Para incluir todos os arquivos de dados na pasta, você precisa inserir folder_name/** para Caminho.
    2. Todos os arquivos de dados precisam ser codificados em Unicode-8.
    3. Todos os arquivos de dados precisam ter os mesmos números de coluna e nomes de coluna.
    4. O resultado da importação de vários arquivos de dados é a concatenação de todas as linhas de vários arquivos na ordem.
  4. Selecione o esquema de visualização para filtrar as colunas que você deseja incluir. Você também pode definir configurações avançadas como Delimitador nas Opções de análise.

    Captura de tela da visualização do esquema com a coluna 3, 4, 5 e 6 selecionada.

  5. A caixa de seleção Regenerar saída decide se o componente deve ou não ser executado para regenerar a saída no tempo de execução.

    Ela fica desmarcada por padrão, o que significa se o componente foi executado com os mesmos parâmetros de antes, o sistema reutiliza a saída da última execução para reduzir o runtime.

    Se ela é marcada, o sistema executa novamente o componente para regenerar a saída. Portanto, selecione essa opção quando os dados subjacentes no armazenamento forem atualizados; isso poderá ajudar na obtenção dos dados mais recentes.

  6. Envie o pipeline.

    Quando os dados de importação carregam os dados no designer, ele infere o tipo de dados de cada coluna com base nos valores que ele contém, numéricos ou categóricos.

    Se houver um cabeçalho, ele será usado para nomear as colunas do conjunto de dados de saída.

    Se não houver nenhum cabeçalho de coluna existente nos dados, novos nomes de coluna serão gerados usando o formato col1, col2,… , coln*.

Resultados

Quando a importação for concluída, clique com o botão direito do mouse no conjunto de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Se você quiser salvar os dados para reutilização, em vez de importar um novo conjunto de dados cada vez que o pipeline for executado, selecione o ícone Registrar conjunto de dados na guia Saídas e logs no painel direito do componente. Escolha um nome para o conjunto de dados. O conjunto de dados salvo preserva os dados no momento da gravação. O conjunto de dados não é atualizado quando o pipeline é executado novamente, mesmo que o conjunto de dados do pipeline seja alterado. Isso pode ser útil para tirar instantâneos de dados.

Depois que você importar os dados, poderão ser necessários alguns preparativos adicionais para modelagem e análise:

  • Use Editar Metadados para alterar os nomes das colunas, tratar uma coluna como um tipo de dados diferente ou indicar que algumas colunas são rótulos ou recursos.

  • Use Selecionar Colunas no Conjunto de Dados para selecionar um subconjunto de colunas a serem transformadas ou usadas na modelagem. As colunas transformadas ou removidas podem ser facilmente reassociadas ao conjunto de dados original usando o componente Adicionar Colunas.

  • Use Particionar e Realizar Amostragem para dividir o conjunto de dados, executar amostragem ou obter as n primeiras linhas.

Limitações

Devido à limitação de acesso do armazenamento de dados, se o pipeline de inferência contiver o componente Importar Dados, ele será removido automaticamente quando for implantado no ponto de extremidade em tempo real.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.