Componente Importar Dados

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para carregar dados para um pipeline de machine learning a partir de serviços de dados cloud existentes.

Nota

Todas as funcionalidades fornecidas por este componente podem ser efetuadas por arquivos de dados e conjuntos de dados na página de destino da área de trabalho. Recomendamos que utilize o arquivo de dados e o conjunto de dados , que inclui funcionalidades adicionais, como a monitorização de dados. Para saber mais, veja o artigo Como Aceder a Dados e Como Registar Conjuntos de Dados . Depois de registar um conjunto de dados, pode encontrá-lo na categoria Conjuntos de Dados ->Os Meus Conjuntos de Dados na interface de estruturador. Este componente está reservado para utilizadores do Studio(clássico) para uma experiência familiar.

O componente Importar Dados suporta dados de leitura das seguintes origens:

  • URL via HTTP
  • Armazenamentos na cloud do Azure através do Datastores)
    • Contentor de Blobs do Azure
    • Partilha de Ficheiros do Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Base de Dados SQL do Azure
    • Azure PostgreSQL

Antes de utilizar o armazenamento na cloud, tem de registar primeiro um arquivo de dados na área de trabalho do Azure Machine Learning. Para obter mais informações, veja Como Aceder a Dados.

Depois de definir os dados que pretende e ligar à origem, Importar Dados infere o tipo de dados de cada coluna com base nos valores que contém e carrega os dados para o pipeline de estruturador. A saída de Importar Dados é um conjunto de dados que pode ser utilizado com qualquer pipeline de estruturador.

Se os dados de origem forem alterados, pode atualizar o conjunto de dados e adicionar novos dados ao executar novamente a opção Importar Dados.

Aviso

Se a área de trabalho estiver numa rede virtual, tem de configurar os arquivos de dados para utilizar as funcionalidades de visualização de dados do estruturador. Para obter mais informações sobre como utilizar arquivos de dados e conjuntos de dados numa rede virtual, veja Utilizar estúdio do Azure Machine Learning numa rede virtual do Azure.

Como configurar a Importação de Dados

  1. Adicione o componente Importar Dados ao pipeline. Pode encontrar este componente na categoria Entrada e Saída de Dados no estruturador.

  2. Selecione o componente para abrir o painel direito.

  3. Selecione Origem de dados e escolha o tipo de origem de dados. Pode ser HTTP ou arquivo de dados.

    Se escolher o arquivo de dados, pode selecionar arquivos de dados existentes que já estejam registados na sua área de trabalho do Azure Machine Learning ou criar um novo arquivo de dados. Em seguida, defina o caminho dos dados a importar no arquivo de dados. Pode navegar facilmente pelo caminho ao selecionar Procurar Caminho.

    Captura de ecrã a mostrar a ligação Procurar caminho que abre a caixa de diálogo Seleção de caminho.

    Nota

    O componente Importar Dados destina-se apenas a dados tabulares . Se quiser importar vários ficheiros de dados tabulares uma vez, requer as seguintes condições. Caso contrário, ocorrerão erros:

    1. Para incluir todos os ficheiros de dados na pasta, tem de introduzir folder_name/** o Caminho.
    2. Todos os ficheiros de dados têm de ser codificados no unicode-8.
    3. Todos os ficheiros de dados têm de ter os mesmos números de coluna e nomes de colunas.
    4. O resultado da importação de vários ficheiros de dados é a concatenação de todas as linhas de vários ficheiros por ordem.
  4. Selecione o esquema de pré-visualização para filtrar as colunas que pretende incluir. Também pode definir definições avançadas, como Delimitador nas opções de Análise.

    Captura de ecrã da pré-visualização do esquema com a Coluna 3, 4, 5 e 6 selecionada.

  5. A caixa de verificação, Regenerar saída, decide se deve executar o componente para regenerar a saída no tempo de execução.

    Por predefinição, não está selecionado, o que significa que, se o componente tiver sido executado com os mesmos parâmetros anteriormente, o sistema reutiliza a saída da última execução para reduzir o tempo de execução.

    Se estiver selecionado, o sistema executa novamente o componente para regenerar a saída. Por isso, selecione esta opção quando os dados subjacentes no armazenamento forem atualizados, pode ajudar a obter os dados mais recentes.

  6. Submeta o pipeline.

    Quando Importar Dados carrega os dados para o estruturador, infere o tipo de dados de cada coluna com base nos valores que contém, numérico ou categórico.

    Se estiver presente um cabeçalho, o cabeçalho é utilizado para atribuir um nome às colunas do conjunto de dados de saída.

    Se não existirem cabeçalhos de coluna nos dados, os novos nomes de coluna são gerados com o formato col1, col2,... , coln*.

Resultados

Quando a importação estiver concluída, clique com o botão direito do rato no conjunto de dados de saída e selecione Visualizar para ver se os dados foram importados com êxito.

Se quiser guardar os dados para reutilização, em vez de importar um novo conjunto de dados sempre que o pipeline for executado, selecione o ícone Registar conjunto de dados no separador Saídas+registos no painel direito do componente. Escolha um nome para o conjunto de dados. O conjunto de dados guardado preserva os dados no momento da gravação. O conjunto de dados não é atualizado quando o pipeline é novamente executado, mesmo que o conjunto de dados no pipeline seja alterado. Isto pode ser útil para tirar instantâneos de dados.

Depois de importar os dados, poderá precisar de alguns preparativos adicionais para modelação e análise:

  • Utilize Editar Metadados para alterar nomes de colunas, processar uma coluna como um tipo de dados diferente ou indicar que algumas colunas são etiquetas ou funcionalidades.

  • Utilize Selecionar Colunas no Conjunto de Dados para selecionar um subconjunto de colunas para transformar ou utilizar na modelação. As colunas transformadas ou removidas podem ser facilmente reencontradas no conjunto de dados original com o componente Adicionar Colunas .

  • Utilize Partição e Exemplo para dividir o conjunto de dados, efetuar a amostragem ou obter as primeiras n linhas.

Limitações

Devido à limitação de acesso do arquivo de dados, se o pipeline de inferência contiver o componente Importar Dados , será removido automaticamente quando implementado no ponto final em tempo real.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.