Compartilhar via


Tutorial do Lakehouse: Ingerir dados no Lakehouse

Neste tutorial, você ingere mais tabelas de fatos e dimensionais da Wide World Importers (WWI) no lakehouse.

Pré-requisitos

  • Caso você não tenha um lakehouse, crie um.

Ingestão de dados

Nesta seção, utilize a atividade Copiar dados do pipeline do Data Factory para ingerir dados de amostra de uma conta de armazenamento do Azure para a seção Arquivos do lakehouse criado anteriormente.

  1. Selecione Espaços de Trabalho no painel de navegação esquerdo e, em seguida, selecione o novo espaço de trabalho no menu Espaços de Trabalho. A exibição de itens do seu espaço de trabalho é exibida.

  2. No item de menu +Novo da faixa espaço de trabalho, selecione Pipeline de dados.

    Captura de tela mostrando como criar um novo pipeline de dados.

  3. Na caixa de diálogo Novo pipeline, especifique o nome como IngestDataFromSourceToLakehouse e selecione Criar. Um novo pipeline do data factory é criado e aberto.

  4. No pipeline do Data Factory recém-criado, selecione Atividade do pipeline para adicionar uma atividade ao pipeline e selecione Copiar dados. Essa ação adiciona uma atividade de cópia de dados à tela do pipeline.

    Captura de tela mostrando o local para selecionar a atividade de pipeline e copiar os dados.

  5. Selecione a atividade de cópia de dados recém-adicionada na tela. As propriedades da atividade aparecem em um painel abaixo da tela (talvez seja necessário expandir o painel para cima, arrastando a borda superior). Na guia Geral no painel de propriedades, digite Cópia de Dados para Lakehouse no campo Nome.

    Captura de tela mostrando o local para adicionar o nome da atividade de cópia na guia Geral.

  6. Na guia Origem da atividade de cópia de dados selecionada, selecione Externo como Tipo de armazenamento de dados e, em seguida, selecione +Novo para criar uma nova conexão com a fonte de dados.

    Capturas de tela mostrando o local para selecionar Externo e + Novo na guia Origem.

  7. Neste tutorial, todos os dados de amostra estão disponíveis em um contêiner público do armazenamento de blobs do Azure. Conecte-se a esse contêiner para copiar os dados dele. Na tela Nova conexão, selecione Armazenamento de Blobs do Azure e, em seguida, Continuar.

    Captura de tela mostrando o local para selecionar o Armazenamento de Blobs do Azure.

  8. Na tela Nova conexão, insira os seguintes detalhes e selecione Criar para criar a conexão com a fonte de dados.

    Propriedade Valor
    Nome ou URL da conta https://azuresynapsestorage.blob.core.windows.net/sampledata
    Conexão Criar nova conexão
    Nome da conexão wwisampledata
    Tipo de autenticação Anônima

    Captura de tela mostrando o local para inserir os detalhes e selecionar Criar.

  9. Depois que a nova conexão for criada, retorne à guia Origem da atividade de cópia de dados e a conexão recém-criada será selecionada por padrão. Especifique as seguintes propriedades antes de passar para as configurações de destino.

    Propriedade Valor
    Tipo de armazenamento de dados Externo
    Conexão wwisampledata
    Tipo de caminho do arquivo Caminho do arquivo
    Caminho do arquivo Nome do contêiner (primeira caixa de texto): sampledata
    Nome do diretório (segunda caixa de texto): WideWorldImportersDW/parquet
    Recursivamente Verificado
    Formato de arquivo Binário

    Captura de tela mostrando o local para inserir os detalhes específicos.

  10. Na guia Destino da atividade de cópia selecionada, especifique as seguintes propriedades:

    Propriedade Valor
    Tipo de armazenamento de dados Workspace
    Tipo de armazenamento de dados do workspace Lakehouse
    Lakehouse wwilakehouse
    Pasta raiz Arquivos
    Caminho do arquivo Nome do diretório (primeira caixa de texto): wwi-raw-data
    Formato de arquivo Binário

    Captura de tela da guia Destino, mostrando o local para inserir os detalhes específicos.

  11. Você configurou a atividade de cópia dos dados. Selecione o ícone Salvar na faixa superior (abaixo de Início) para salvar as alterações e selecione Executar para executar o pipeline e sua atividade. Também é possível agendar os pipelines para atualizar os dados em intervalos definidos para atender às exigências do seu negócio. Para este tutorial, executamos o pipeline apenas uma vez, clicando no botão Executar.

    Essa ação dispara a cópia de dados da fonte de dados subjacente para o lakehouse especificado e pode levar até um minuto para ser concluída. Você pode monitorar a execução do pipeline e sua atividade na guia Saída, que aparece quando você clica em qualquer lugar da tela. Opcionalmente, você pode selecionar o ícone de óculos, que aparece quando você passa o mouse sobre o nome, para ver os detalhes da transferência de dados.

    Captura de tela mostrando o local para selecionar Salvar e Executar e o local para encontrar os detalhes da execução e o ícone de óculos na guia Saída.

  12. Depois que os dados forem copiados, acesse a exibição de itens do espaço de trabalho e selecione o novo lakehouse (wwilakehouse) para abrir a exibição do Explorer.

    Captura de tela mostrando onde selecionar o lakehouse para iniciar a exibição do Explorer.

  13. Verifique se a nova pasta wwi-raw-data aparece na exibição do Explorer e se os dados de todas as tabelas estão copiados nela.

    Captura de tela mostrando que os dados de origem foram copiados para o Lakehouse Explorer.

Para carregar dados incrementais em um lakehouse, consulte Carregar dados de forma incremental de um data warehouse para um lakehouse.

Próxima etapa