Partilhar via


Tutorial Lakehouse: Ingerir dados na lakehouse

Neste tutorial, você ingere mais tabelas dimensionais e de fatos da Wide World Importers (WWI) na casa do lago.

Pré-requisitos

  • Se você não tem uma casa de lago, você deve criar uma casa de lago.

Ingerir dados

Nesta seção, você usa a atividade Copiar dados do pipeline do Data Factory para ingerir dados de exemplo de uma conta de armazenamento do Azure para a seção Arquivos da casa do lago criada anteriormente.

  1. Selecione Espaços de trabalho no painel de navegação esquerdo e, em seguida, selecione o novo espaço de trabalho no menu Espaços de trabalho. A vista de itens da sua área de trabalho é apresentada.

  2. No item de menu +Novo na faixa de opções do espaço de trabalho, selecione Pipeline de dados.

    Captura de tela mostrando como criar um novo pipeline de dados.

  3. Na caixa de diálogo Novo pipeline, especifique o nome como IngestDataFromSourceToLakehouse e selecione Criar. Um novo pipeline de data factory é criado e aberto.

  4. No pipeline de fábrica de dados recém-criado, selecione Atividade do pipeline para adicionar uma atividade ao pipeline e selecione Copiar dados. Essa ação adiciona a atividade de cópia de dados à tela do pipeline.

    Captura de tela mostrando onde selecionar Atividade de pipeline e Copiar dados.

  5. Selecione a atividade de cópia de dados recém-adicionada na tela. As propriedades da atividade aparecem em um painel abaixo da tela (talvez seja necessário expandir o painel para cima arrastando a borda superior). Na guia Geral no painel de propriedades, digite Cópia de dados para Lakehouse no campo Nome.

    Captura de ecrã a mostrar onde adicionar o nome da atividade de cópia no separador Geral.

  6. Na guia Origem da atividade de cópia de dados selecionada, selecione Externo como tipo de armazenamento de dados e, em seguida, selecione + Novo para criar uma nova conexão com a fonte de dados.

    Captura de tela mostrando onde selecionar Externo e + Novo na guia Origem.

  7. Para este tutorial, todos os dados de exemplo estão disponíveis em um contêiner público do armazenamento de blob do Azure. Você se conecta a esse contêiner para copiar dados dele. Na primeira tela Nova conexão , selecione Armazenamento de Blob do Azure e, em seguida, selecione Continuar.

    Captura de ecrã do assistente para Nova ligação, mostrando onde selecionar o Armazenamento de Blobs do Azure.

  8. Na tela Configurações de conexão , insira os seguintes detalhes e selecione Criar para criar a conexão com a fonte de dados.

    Property valor
    Nome da conta ou URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    Connection Create new connection
    Nome da ligação wwisampledata
    Tipo de autenticação Anónimo

    Captura de tela da tela Configurações de conexão, mostrando onde inserir os detalhes e selecione Criar.

  9. Depois que a nova conexão for criada, retorne à guia Origem da atividade de cópia de dados e a conexão recém-criada será selecionada por padrão. Especifique as seguintes propriedades antes de mover para as configurações de destino.

    Property valor
    Tipo de armazenamento de dados Externa
    Connection wwisampledata
    Tipo de caminho de arquivo Caminho do ficheiro
    Caminho do ficheiro Nome do contêiner (primeira caixa de texto): sampledata
    Nome do diretório (segunda caixa de texto): WideWorldImportersDW/parquet
    Recursivamente Selecionado
    File format Binário

    Captura de ecrã do separador fonte que mostra onde introduzir os detalhes específicos.

  10. Na guia Destino da atividade de dados de cópia selecionada, especifique as seguintes propriedades:

    Property valor
    Tipo de armazenamento de dados Área de trabalho
    Tipo de armazenamento de dados do espaço de trabalho Casa do Lago
    Casa do Lago Casa da Guerra Mundial
    Pasta raiz Ficheiros
    Caminho do ficheiro Nome do diretório (primeira caixa de texto): wwi-raw-data
    File format Binário

    Captura de ecrã do separador Destino, mostrando onde introduzir detalhes específicos.

  11. Você configurou a atividade de cópia de dados. Selecione o ícone Salvar na faixa de opções superior (abaixo de Página inicial) para salvar suas alterações e selecione Executar para executar seu pipeline e sua atividade. Você também pode agendar pipelines para atualizar dados em intervalos definidos para atender às suas necessidades de negócios. Para este tutorial, executamos o pipeline apenas uma vez, selecionando Executar.

    Essa ação dispara a cópia de dados da fonte de dados subjacente para a casa do lago especificada e pode levar até um minuto para ser concluída. Você pode monitorar a execução do pipeline e sua atividade na guia Saída , que aparece quando você clica em qualquer lugar na tela. Opcionalmente, você pode selecionar o ícone de óculos, que aparece quando você passa o mouse sobre o nome, para ver os detalhes da transferência de dados.

    Captura de tela mostrando onde selecionar Salvar e Executar e onde encontrar o ícone de detalhes e óculos de execução na guia Saída.

  12. Depois que os dados forem copiados, vá para a visualização de itens do espaço de trabalho e selecione sua nova lakehouse (wwilakehouse) para iniciar a visualização do Explorer .

    Captura de tela mostrando onde selecionar a casa do lago para iniciar a visualização do Explorer.

  13. Valide se uma nova pasta wwi-raw-data aparece na visualização Explorer e os dados de todas as tabelas são copiados lá.

    Captura de tela mostrando que os dados de origem são copiados para o Lakehouse Explorer.

Para carregar dados incrementais em uma lakehouse, consulte Carregar incrementalmente dados de um data warehouse para uma lakehouse.

Próximo passo